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饮 试 锋 艺 
从 一 道 面试 题 开始 说 起 


我 每 次 当面 试 官 ， 都 要 伪装 成 无 所 不 知 的 大 牛 。 

这 当然 是 无 奈 的 选择 一 一 现在 每 封 简历 都 那么 耀眼 ， 不 装 一 下 简 
直 镇 不 住 场面 。 毕业 的 本 科 生 ， 早 就 拿 下 CCIE 认 证 ; 留 欧 两 
年 的 海归 ， 已 然 精通 英 、 法 、 德 三 门 外 语 ; 最 厉害 的 一 位 应 聘 者 ， 研 
认 生 阶段 就 在 国际 上 首次 提出 了 计算 机 和 生物 学 的 跨 界 理论 本 可 怜 
我 这 个 老实 人 在 一 开场 还 能 装 装 ， 到 了 技术 环节 就 忍 不 住 提 问 基 础 知 
ys 人 在 工地。 不 过 就 是 这 些 最 基础 的 
问题 ， 却 常常 把 简历 精英 们 难 住 。 本 文 要 介绍 的 便 是 其 中 的 一 道 。 

问题 : 两 台 服 务 器 A 和 B 的 网 络 配 置 如 下 ( 见 图 1) ，B 的 子 网 掩 
码 本 应 该 是 255.255.255.0， 被 不 小 心 配 成 了 255.255.255.224。 它 们 还 能 

常 通信 吗 ? 


J /A Hy Es 
服务 器 A: 服务 器 B: 
Internet Protocol (TCP/IP) Properties 了 xl | 
General General | 
You can get IP settings assigned automatically if your Nnetwork supports You can get IP settings assigned automatically if your network si sig 
this capabilky, Otherwise, you need to ask your network administrakor 由 is capability, py You need to ask your network admini: 
for the appropriate IP settings. for the appropriate IP settings. 
rc hta in an IP address eutomakic ally Fi Obtain an IP address automatically 
FC Use the folowing IP address 了 
PP address; 
Subnet mask; 
Default gateway: 
© Obtan DNS sever ad tor 让 © Obtain DNS server addrs j ee | 
一 人 Use the following DNS server addresses 一 一 -人 Use the folowing DN5 server addresses’- 
Breferred DNS server: gy. 0 0 1 Preferred DNS server: 1 
Akernate DNS server: Alternake DNS server: 和 


Adyanced,,, 


很 多 应 聘 者 都 会 沉思 良久 《他 们 一 定 在 心里 把 我 驾 了 很 多 遍 
了 ) ， 然 后 给 出 下 面 这 些 形形色色 的 答案 。 

答案 1:“A 和 了 B 不 能 通信 ， 因 为 .…… 如 果 这 样 都 行 的 话 ， 子 网 掩 码 
还 有 什么 用 ? ”人 (这 位 的 反 证 法 听 上 去 很 有 道理 ! ) 

答案 2:“A 和 B 能 通信 ， 因 为 它们 可 以 通过 ARP 广 播 获 得 对 方 的 
MAC 地 址 。” 《和 那 子 网 掩 码 还 有 什么 用 ? 楼 上 的 反 证 法 用 来 反驳 这 位 
正好 。) 

答案 3: “A 和 B 能 通信 ,但 所 有 包 都 要 通过 默认 网 关 192.168.26.2 
转发 。”( 请 问 这 么 复杂 的 结果 你 是 怎么 想到 的 ? ) 

答案 4: “A 和 B 不 能 通信 ， 因 为 ARP 不 能 跨 子 网 。”( 这 个 答案 听 
上 去 真 像 是 经 过 认真 思考 的 。) 

以 上 哪个 答案 是 正确 的 ? 还 是 都 不 正确 ? 如 果 这 是 你 第 一 次 听 到 
这 道 题 ， 不 妨 停 下 来 思考 一 下 。 

真相 只 有 一 个 ， 应 聘 者 的 答案 却 是 五 花 八 门 。 可 见 对 网 络 概念 的 
理解 不 容 含糊 ， 否 则 差 之 毫 厘 ， 廖 以 千里 。 要 知道 ， 这 还 只 是 基本 的 
路 由 交换 知识 ， 假 如 涉及 复杂 概念 ， 结 果 就 更 不 用 说 了 。 

问题 是 即便 我 们 对 着 教材 咬文嚼字 ， 也 不 一 定 能 悟 出 正确 答案 。 
这 个 时 候 ， 就 可 以 借助 Wireshark 的 抓 包 与 分 析 功 能 了 。 我 手头 就 有 两 
台 Windows 服 务 器 ， 已 经 按照 面试 题 配 好 网 络 。 如 果 你 以 前 没有 用 过 
Wireshark， 就 开始 第 一 次 亲密 接触 吧 。 

1. 从 http:/www.wireshark.org/download.html 免 费 下 载 安 装 包 ， 并 
在 服务 器 B 上 装 好 (把 所 有 可 选项 都 装 上 ) 。 

2 .启动 Wireshark 软件 ， 单 击 菜 单 栏 上 的 Capture ， 再 单 击 


bcs Teiepheny Took WS nterny Hep 二 
-EE 


Fer: 让 二 时 | Exprasion.， CHr A 中 


图 2 


3. 服务 器 B 上 的 所 有 网 卡 都 会 显示 在 弹出 的 新 窗口 上 ( 见 图 
3) ， 在 要 抓 包 的 网 卡 上 单 击 Start 按 钮 。 
直到 
DBsCIption TP Packets Packetsis Stan | 
评 InieKR] PRONIQDO MT Network Connection 192,168,25,3 Zl 0 ar | cptions | Detais | 


Hep | Qose 


图 3 


4. 在 服务 器 B 上 ping A 的 IP 地 址 ， 结 果 是 通 的 ( 见 图 4) 。 该 操作 


产生 的 网 络 包 已 经 被 wireshark 捕 获 。 


Mic rosoft Windows IUcrs 
《CY Copyright i1985—2803 Ss 0 


GCG:\Docunents and Settings\Admni trator>ping i122.168.26.12? 
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5. 在 Wireshark 的 菜单 栏 上 ， 再 次 单 击 Capture， 然 后 单 击 Stop。 

6. 在 Wireshark 的 菜单 栏 上 ， 单 击 File， 再 单 击 Save， 把 网 络 包 保 
存 到 硬盘 上 《这 一 步 并 非 必 需 ， 但 存档 是 个 好 习惯 ) 。 

7. 收集 每 台 设 备 的 MAC 地 址 以 备 分 析 。 


。 服 务 器 A: 00:0c:29:0c:22:10 
。 服 务 器 B: 00:0c:29:51:f1:7b 


。 默 认 网 关 : 00:50:56:e7:2f:88 


现在 可 以 分 析 网 络 包 了 。 如 图 5 所 示 ，Wireshark 的 界面 非常 直 
观 。 最 上 面 是 Packet List 窗 口 ， 它 列 出 了 所 有 网 络 包 。 在 Packet List 中 
选 定 的 网 络 包 会 详细 地 显示 在 中 间 的 Packet Details 窗 口中 。 由 于 我 在 
Packet List 中 选 定 的 是 3 号 包 ， 所 以 图 5 中 看 到 的 就 是 Frame 3 的 详情 。 
最 底下 是 Packet Bytes Details 窗 口 ， 我 们 一 般 不 会 用 到 它 。 


国 .ora_ :ones_pnercap am 三 
| Be Sa Yew Go Capture Anayre Satistics Teephony Jools WSietemal Help | 
本 亲 出 白 因 其 鱼 / A 个 四 于 主 | 国 因 QQQADl 外 罗 鞠 | 加 PR Packet List 
Filter [= | Erpression., Client Appy 
No ~ Source Destnahon Time Protocol info 

1 vmware_51:f1:7b Broadcast 2013-04-02 14:18:47.093179 ARP Who has 192.168.26.27 Te11 192.168.26.3 

2 vmware _e7:2f:88 Vmware_51:f1:7b 2013-04-02 14:18:47.093476 ARP 192.168.26.2 15 ar 00:50:56:e7:2f:88 

3 192.168.26.3 192.168.26.129 2013-04-02 14:18:47.093500 ICMP Echo (ping) request 1d-Ox0200，seq-4352/17，rr1-128 

4 Vware_Oc:22:10 Broadcast 2013-04-02 14:18:47.094076 ARP Who has 192.168.26.37 Te11 192.168.26.129 

5 Veware_51:f1:7b Vmware_0c:22:10 2013-04-02 14:18:47.094104 ARP 192.168.26.3 1s ar 00:0c:29:51:f1:7b 

6 192.168.26.129 192.168.26.3 2013-04-02 14:18:47.094393 Echo (ping) reply 1d-Ox0200，seq-4352/17，rr1-128 

7 192.168.26.3 192.168.26.129 2013-04-02 14:18:48.084739 Echo (ping) request id-0x0200, seq-4608/18, tt]-128 


TCMP 

了 CMP 
8 192.168.26.129 192.168.26.3 2013-04~02 14: 8.085416 ZECMP Echo (ping) reply id-0x0200, seq=4608/18, trl-128 
9 192.168.26.3 192.168.26.129 2013-04-02 14:18:49.098809 ECMP Echo (ping) request id-0x0200, seq=4864/19, trl-128 
10 192.168.26.129 192.168.26.3 2013-04-02 14:18:49.099351 CECMP Echo (ping) reply id-0x0200, seq-4864/19, tt1-128 


5 Frame 3: 74 bytes on wire (592 birs), 74 byres caprured (592 bits) Packet Details | 


NE 0 SrC: Veware_ a RE 7h di Dst: Vevware_e7 i 88 ee 
日 COCC 8. 26 168:2 19 1 6 
3 Incerner Contro Re Protoco 


29 Si1 Fi 7b 08 00 


和 2F 88 00 Oc Sn 
62 6 4 65 66 
| - 和 呈 四 6c 全 名 品 71 72 73 74 75 76 9 kgn o0 so SC 
77 61 62 65 wabcdefg h 
pa Packet Bytes Details 


@ ntemet Protocol (Gp) 2 bytes Packets: 12 Displayed: 12 Marked: © Losd time (00.000 Profile: Defsult 
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接 下 来 看 看 每 个 包 都 做 了 些 什么 。 
1 号 包 ( 见 图 6) 


No.* Source Destination Time Protocol Info 
1 vmrare_S51:f1l:7b 6roadcast 2013-04-02 14:18:47,093179 ARP Who has 192.168.26.2? Te11 192.168.26.3 


4| Ms 


Iu Frame 1: #2 bytes on wire (336 bits), 42 bytes captured (336 bits) 


HEthernet II，sSrc: Ymare_S51:fi:7b (00:0c:29:51:f1:7b), Dst; Broadcast (ff:ff:ff :ff:ff:ff) 
I Addres5 Resolution Protocol (request) 


服务 器 B 通 过 ARP 广 播 查 询 默 认 网 关 192.168.26.2 的 MAC 地 址 。 
什么 我 ping 的 是 服务 器 A 的 IP，B 却 去 查询 默认 网 关 的 MAC 地 址 呢 ? 
是 因为 B 根 据 自己 的 子 网 掩 码 ， 计 算出 A 属于 不 同 子 网 ， 跨 子 网 通信 和 需 
要 默认 网 关 的 转发 。 而 要 和 默认 网 关 通 信 ， 就 需要 获得 其 MAC 地 址 。 
2 号 包 〈 见 图 7) 


No.^ Source Destination Time Protocol Info 
2 Vmare_e7:2f:88 Vmware_51:fl1:7b 2013-04-02 14:18:47,093476 ARP 192.168.26,2 is at 00:50:56:e7:2f:88 
mn 


nm Frame 2: 60 byte5 on wire (480 birs), 6€0 bytes captured (480 bits 


四 Ethernet II，sSrc: Vmware_e7:2f:88 (00:50:56:e7:2f:88), DstT: vmware_51i:fi:7b (00:0cC:29:51:f1:7b) 
Address Resolution Protocol (reply) 


图 7 


默认 网 关 192.168.26.2 向 B 回 复 了 自己 的 MAC 地 址 。 为 什么 这 些 
MAC 地 址 的 开头 明明 是 “00:50:56? 或 者 “00:0c:29”，Wireshark 上 显示 出 
来 却 都 是 “vmware”? 这 是 因为 MAC 地 址 的 前 3 个 字 节 表示 厂商 。 而 
00:50:56 和 00:0c:29 都 被 分 配给 Vmware 公 司 。 这 是 全 球 统 一 的 标准 ， 所 
以 Wireshatk 干 脆 显 示 出 厂商 名 了 。 

3 号 包 ( 见 图 8) 


No. = Source Destination Time Protocol jnfo 
3 192.168.26.3 192.168.26.129 2013-04-02 14:18:47.093500 ICMP Echo (ping) request id=0x0200, seq=4352/17, tt1=128 
四 Frame 3; 74 bytes on wire (592 bits 4 bytes pe red 有 bits) 
hernet II, Src: Vmware_51: 人 7b 一 | b), t; Vimare_e7;2f:;88 (00:50:56.;e7.;2f;88) 
， Src: 192.168.26- : 6 i 92.168.26.129 (192.168 1 : 


图 8 


B 发 出 ping 包 ， 指 定 Destination 卫 为 A， 即 192.168.26.129。 但 
Destination MAC 却 是 默认 网 关 的 00:50:56:e7:2f:88 (Destination MAC 可 
a 图 8 中 的 Packet Details 中 看 到 ) 。 这 表明 B 希 望 默认 网 关 把 包 转 发 

给 A。 至 于 默认 网 关 有 没有 转发 ， 我 们 目前 无 从 得 知 ， 除 非 在 网 关上 
也 抓 个 包 。 
4 号 包 〈 见 图 9) 


No. ^ Source Destination Time Protocol Info 
4 Vmware_Dc:22:10 Broadcast 2013-04-02 14:18:47.094076 ARP Who has 192.168.26.3? Te]ll] 192.168.26.129 
Senin 2 2 击 这 


了 四 Frame 4: 60 bytes on wire (480 bits)，60 bytes captured (480 bits) 


外 Ethernet II，Src: Vmware_OcC:22:10 (00:0cC:29:0C:22:10), Dst: Broadcast (ff:ff:ff:ff:ff:ff) 
EH Address Resolution prorocol (request) 


图 9 


B 收 到 了 人 A 发 出 的 ARP 广 播 ， 这 个 广播 查询 的 是 B 的 MAC 地 址 。 这 
是 因为 在 A 看 来 ，B 属 于 相同 子 网 ， 同 子 网 通信 无 需 默 认 网 关 的 参与 ， 
只 要 通过 ARP 获 得 对 方 MAC 地 址 就 行 了 。 这 个 包 也 表明 默认 网 关 成 功 
地 把 B 发 出 的 ping 请 求 转发 给 A 了 ， 否 则 A 不 会 无 缘 无 故 党 试 和 B 通 
信 s 

5 号 包 ( 见 图 10) 


No. ~ Source Destination Tim Protocol Info 
5 Vmware_51:f1: 7b Vnware_0OC:22:10 2013- 04-02 14:18:47.094104 ARP 192.168.26.3 15 ac 00:0C:29:51:fil:7b 
加 


B 回 复 了 A 的 ARP 请 求 ， 把 自己 的 MAC 地 址 告诉 A。 这 说 明 B 在 执 
行 ARP 回 复 时 并 不 考虑 子 网 。 虽 然 ARP 请 求 来 自 其 他 子 网 的 卫 ， 但 也 
照样 回复 。 

6 号 包 〈 见 图 11) 


No. = Source Destination Time Protocol jnfo 
6 192.168.26.129 192.168.26.3 2013-04-02 14:18:47.094393 ICMP Echo (ping) reply id=0x0200,，seq=4352/17, tt1=128 


2 74 了 d b 
田 Ethernet II，Src: Vmware. PRE 00:0c:29:0c;22:10 3 ©_51 7b 9:51:f1:7b 
E Internet Protoco|l, src: 192.168.26.129 (192.168.26. A pT 168. -~ 3 二 Ee 26. 3) 
E Internet Contro] Message Protocol 


图 11 


B 终 于 收 到 了 A 的 ping 回 复 。 从 MAC 地 址 00:0c:29:0c:22:10 可 以 看 
出 ， 这 个 包 是 从 A 直 接 过 来 的 ， 而 不 是 通过 默认 网 关 的 转发 。 
7、8、9、10 号 包 〈 见 图 12) : 


Noe, Destinaticl Tim Protocol nfo 


人 168. 26.3 192. 168. 26.129 2013- 04-02 14:18:48.084739 ”ICMP Echo (ping) request 1d-0x0200, Seq-4608/,18, tt1l-128 

8 192.168.26.129 192.168.26.3 2013-04-02 14:18:48.085416 It™p Echo (ping) reply 1d-0x0200, seq-4608/18, ttl-128 

9 192.168.26.3 192.168.26.129 2013-04-02 14:18:49.098809 ”ICMP Echo (ping) request 1d-0x0200, Seq-4864/19, TUI-128 

10 192,168. 26.129 192.168.26.3 2013-04-02 14:18:49.099351 ”ICMP Echo (ping) reply 1d-0x0200, seq-4864/19, ttl-128 
Wm 


£ Frame 7: 74 bytes on wire (592 bits), 74 bytes captur 和 = ts a 
5 Ethernet II, Src: Vmware_51:fi:7b (00:0c cn SLY e7: 2 88 (00:50:56:e7:2f:88) 
58.26 192.168.26. 3), Dst: De 6 68. 26.129) 


5 Internet Control Message Protocol 


图 12 


都 是 重复 的 ping 请 求 和 ping 回 复 。 因 为 A 和 B 都 已 经 知道 对 方 的 联 
系 万 式 ， 所 以 就 没 必要 再 发 ARP 了 。 

分 析 完 这 几 个 包 ， 答 案 出 来 了 。 原来 通 is B 先 把 
ping 请 求 交 给 默认 网 关 ， 默 认 网 关 再 转发 给 A。 而 A 收 到 请 求 后 直接 把 
ping 回 复 给 B， 形 成 图 13 所 示 的 三 角形 环 路 。 不 知 ti 

通过 这 道 题 ， 不 知道 你 是 否 已 经 感受 到 了 Wireshark 的 神奇 ? 如 果 
有 兴趣 进 一 步 练 习 ， 不 妨 也 搭 个 环境 ， 把 这 道 题 里 A 和 B 的 掩 码 互 换 
一 下 。 看 看 这 次 还 能 ping 通 吗 ? 如 果 不 能 ， 原 因 又 在 哪里 ? 


ping 请 求 


图 13 


其 实 做 题 对 Wireshark 只 是 大 材 小 用 ， 它 还 可 以 用 于 学 习 复 杂 的 协 
议 ， 或 者 解决 隐 洒 的 难题 。 在 下 文中 ， 我 们 将 体验 Wireshark 在 实际 工 
作 中 的 应 用 。 


小 试 牛刀 : 一 个 简单 的 应 用 实例 


我 的 老板 气 宇 轩 昂 ， 目 光 笃 定 ， 在 人 群 中 颇 有 大 将 风范 (当然 是 
老板 娘 不 在 场 的 时 候 ) 。 有 一 年 我 们 在 芝加哥 流落 街头 ， 也 没 见 他 银 
过 眉头 。 不 过 前 几 天 ， 这 位 气 场 型 领导 竟然 板 着 脸 跑 过 来 ， 说 赶紧 帮 
忙 ， 有 位 同事 被 客户 器 惨 了 。 我 当然 不 能 拒绝 帮 (yao) 助 (giu) 同 

(jia) 事 (xin) 的 机 会 ， 立 即 加 入 电话 会 议 。 

原来 事情 是 这 样 的 : 客户 不 小 心 重 启 了 服务 器 A， 然 后 它 就 再 也 
无 法 和 服务 器 B 通 信 了 。 由 于 这 两 台 服 务 器 之 间 传 输 的 是 关键 数据 ， 
现场 工程 师 又 一 时 查 不 出 原因 ， 所 以 客户 异常 恼火 。 

问题 听 起 来 并 不 复杂 ， 考 虑 到 起 因 是 服务 器 A 的 重启 ， 所 以 我 收 
集 了 它 的 网 络 配 置 ( 见 图 1) 。 


[root@A ~]# ifconfig |egrep "HWaddr|inet addr" 


ethe Link encap:Ethernet HWaddr 66:6C:29:CB:74:A9 

inet addr:192.168.26.131 Bcast:192.168.26.255 Mask:255.255.255.9 
eth1 Link encap:Ethernet HWaddr 66:6C:29:CB:74:B3 

inet addr:192.168.174.131 Bcast:192.168.174.255 Mask:255.255.255.6 
eth2 Link encap:Ethernet HWaddr 66:6C:29:CB:74:BD 


inet addr:192.168.186.131 Bcast:192.168.186.255 Mask:255.255.255.6 
[root@A ~]# route |grep default 
default 192.168.26.2 255.255.255.06 UG 9 9 8 ethe 


图 1 


服务 器 B 的 网 络 配置 则 简单 很 多 ， 只 有 一 个 下地 址 
192.168.182.131， 子 网 掩 码 也 是 255.255.255.0。 

当 我 们 在 A 上 ping B 时 ， 网 络 包 应 该 怎么 走 ? 阅读 以 下 内 容 之 前 ， 
读者 不 妨 先 停 下 来 思考 一 下 。 

一 般 情 况 下 ， 像 A 这 类 多 IP 的 服务 器 是 这 样 配 路 由 的 : 假如 自身 
有 一 个 IP 和 对 方 在 同一 子 网 ， 就 从 这 个 IP 直 接 发 包 给 对 方 。 假 如 没有 
一 个 IP 和 对 方 同 子 网 ， 就 走 默 认 网 天 。 在 这 个 环境 中 ，A 的 3 个 IP 显 然 
都 与 B 属 于 不 同 子 网 ， 那 就 应 该 走 默认 网 关 了 。 会 不 会 是 A 和 默认 网 关 
的 通信 出 问题 了 呢 ? 我 从 A 上 ping 了 一 下 网 关 ， 结 果 却 是 通 的 。 难 道 是 
因为 网 天 没有 把 包 转 发 出 去 ? 或 者 是 ping 请 求 已 经 被 转发 到 B 了 ， 但 
ping 回 复 在 路 上 丢失 ? 我 感觉 自己 已 经 走 进 死胡同 。 每 当 到 了 这 个 时 
候 ， 我 就 会 想到 最 值得 信赖 的 队友 一 Wireshark。 

我 分 别 在 eth0、eth1、 和 eth2 上 抓 了 包 。 最 先 查 看 的 是 连接 默认 网 
关 的 eth0， 出 乎 意料 的 是 ， 上 面 竟然 一 个 相关 网 络 包 都 没有 。 而 在 eth1 
上 抓 的 包 却 是 图 2 的 表现 : A 正 通 过 ARP 广 播 查 找 B (192.168.182.131) 
的 MAC 地 址 ， 试 图 绕 过 默认 网 关 直 接 与 B 通 信 。 这 说 明了 什么 问题 
呢 ? 


- 国 tcpdumpfihercap - Te "| 
| Ble Edit View Go Copture Analyze Statistics Telephony Iools WSintemal Help 
及 出 仙人 冲 马 国共 希 吕 加 中 国定 主 | 辆 国 QQQ 昌 着 国 易 闫 | 加 


Fiter: [= | Erpression.. ck 


No Source Tim protocol Info 
1 Ue e_cb:74: 2 ee dries a 2013-0 -27 17:16:33,514361 ARP who has 192.168.182.1317 Te1] 192.168.174.131 
2 Vmwa cb:74:b 2013- 0 27 17:16:34. 515629 ARP who has 192.168.182.131? Tel| 192.168.174.131 
> vare- cb: 2 3 er roadeast 2 05-27 17:16:35,515602 ARP Who has I 168.182.1317 Tell 192.168.174.131 
cb:7 13-05-27 17:16:36.528027 ARP who has 192.168.182.131?  TE1] 192.168.174.131 
ARP Who has 192.168.182.1317 Te11 192.168.174.131 


和 ware -cb: 2 十 er es 5 05-27 17:16:37,528051 
4:b3 oadcast 2013-05-27 17:16:38. 528229 ARP who has 元 守 168.182.131? Te1] 192.168.174.131 


习 Ethernet II, Src: Vmware_cb:7?4:b3 (00:0c 
1 Address Resolution Protocol (request) 


图 2 


这 说 明 A 上 存在 一 项 符合 192.168.182.131 的 路 由 ， 促 使 A 通过 eth1 
直接 与 B 通 信 。 我 赶紧 逐 项 检查 路 由 表 ， 果 然 发 现 有 这 么 一 项 ( 见 图 
3) : 


[root@A ~]# route |egrep "Dest|168.182" 


Destination Gateway Genmask Flags Metric Ref Use Iface 
192.168.182.0 * 255.255.255.06 U [2 9 9 eth1 
图 3 


因为 192.168.182.131 属 于 192.168.182.0/255.255.255.0， 所 以 就 会 走 

这 条 路 由 。 由 于 不 同 子 网 所 配 的 VLAN 也 不 同 ， 所 以 这 些 ARP 请 求 根 

本 到 达 不 了 B。ping 包 就 更 不 用 说 了 ， 它 从 来 就 没 发 出 来 过 。 客 户 赶 
紧 删 除了 这 条 路 由 ， 两 台 服 务 器 的 通信 也 随即 恢复 。 

为 什么 A 重启 之 后 会 多 了 这 条 莫名 其 妙 的 路 由 呢 ? 根据 客户 回 
忆 ， 他 们 以 前 的 确 是 配 过 该 路 由 的 ， 后 来 删 掉 了 ， 不 知道 为 什么 配置 
文件 里 还 留 着 。 今 天 的 重启 加 载 了 一 遍 配置 文件 ， 所 以 这 条 路 由 又 出 
现 了 。 你 也 许 会 问 ， 为 什么 不 从 一 开始 就 仔细 检查 路 由 表 呢 ? 这 样 就 
不 至 于 走 错 胡同 ， 连 抓 包 和 Wireshark 都 省 了 。 我 当时 也 是 这 样 反 省 
的 ， 但 现实 中 要 做 到 并 不 容易 。 且 不 说 一 开始 并 没有 怀疑 到 路 由 表 ， 
就 算 怀 疑 了 也 不 一 定 能 看 出 问题 来 。 在 这 个 案例 中 ， 系 统管 理 员 和 现 
场 工程 师 都 检查 过 路 由 表 ， 但 无 一 例外 地 忽略 了 出 问题 的 一 项 。 这 是 
因为 真实 环境 中 的 路 由 表 有 很 多 项 ， 在 紧张 的 电话 会 议 上 难以 注意 到 
多 出 了 异常 的 一 项 。 而 且 子 网 掩 码 也 不 是 255.255.255.0 那 么 直观 。 假 


如 本 文 所 用 的 IP 保 持 不 变 ， 但 子 网 掩 码 变 成 255.255.248.0， 路 由 表 就 
成 了 图 4 所 示 的 样子 。 


[root@A ~]# netstat -rn 
Kernel IP routing table 


Destination Gateway Genmask Flags MSS Window irtt Iface 

192.168.168.6 08.0.0.0 255.255.248.6 JU 8 9 8 eth1 

192.168.176.6 6.9.0.6 255.255.248.6 JU 8 6 8 eth1 

192.168.184.6 8.0.0.0 255.255.248.6 8 6 8 eth2 

192.168.24.6 8.0.0.0 255.255.248.6 JU 8 6 8 ethe 
图 4 


在 这 个 输出 中 ， 难 以 一 眼 注 意 到 192.168.176.0 就 适用 于 目标 地 址 
192.168.182.131， 至 少 对 我 来 说 是 这 样 的 。 

我 们 能 从 这 个 案例 中 学 习 到 什么 呢 ? 最 直接 的 启示 便 是 翻 出 简 
历 ， 投 奔 甲 方 去 。 这 样 就 可 以 在 搞 古 系统 的 时 候 ， 义 正 词 严 地 要 求 乙 
方 解 决 了 。 假 如 你 固执 地 想 继续 当 乙 方 ， 那 就 开始 学 习 Wireshark 吧 。 
再 有 经 验 的 工程 师 也 有 犯 迷糊 的 时 候 ， 而 Wireshark 从 来 不 会 ， 它 随时 
随地 都 能 告诉 你 真相 ， 不 偏 不 倚 。 


Excel 文 件 的 保存 过 程 


当 我 们 在 Notepad 等 文本 编辑 器 上 单 击 File-->Save 的 时 候 ， 底 层 的 
操作 非常 简单 一 编辑 器 上 的 内 容 被 直接 写 入 文件 了 〈 见 图 1) 。 假 如 这 
个 文件 是 被 保存 到 了 网 络 盘 上 ， 我 们 就 可 以 从 Wireshark 抓 包 上 看 到 这 
个 过 程 ( 见 图 2) 。 


| Wireshark.bt - Notepad 


Edit Format View Help 
New Ctr+N 器 上 占 击 Fi1e-->Save 世 tH 人 候 , 诡 层 的 操作 非常 疝 单 一 : 
ireshark 抓 也 上 看 到 这 个 过 程 ， 


Open... Crtd+O 
Save CtritS 


图 1 


包 号 58: 

客户 端 :“ 我 要 写 6 个 字 节 到 /Temp/wireshark.txt 中 ”。 

包 号 59: 

服务 器 :“ 写 好 了 。” 

相 比 之 下 ， 微 软 Office 保 存 文 件 的 过 程 就 没有 这 么 简单 了 ， 所 以 微 
软 的 老 用 户 都 或 多 或 少 经 历 过 保存 文件 时 发 生 的 问题 。 比 如 图 3 中 的 
Excel 提 示人 信息 就 很 常见 ， 它 说 明 该 文件 被 占用 ， 暂 时 保存 不 了 。 这 样 
的 问题 在 Notepad 上 是 不 会 发 生 的 。 


) :BAPAC InFrasRevPNWn14 - APAC - Infrastruchire Review - [Inincked- SGP TliAS. xlsy is Arrently Nn use. Try zagan Iater. 


图 3 


那么 ，Excel 究 竟 是 如 何 保存 文件 的 呢 ? ee 
文档 ， 但 只 要 把 文件 保存 到 网 络 盘 上 ， 就 可 以 借助 Wireshark 看 到 整 
过 程 了 。 我 在 实验 室 中 编辑 了 Excel 文 件 “wireshark.xlsx”， ae 
时 抓 了 个 包 ， 我 们 一 起 来 分 析 其 中 比较 关键 的 几 个 步骤 见 图 4) : 


No. Sour Des col iInfo 
24 10.32.200.41 10. 32.106. 50 Eee 斌 汪 Create Request File: Temp\DCD652B.tmp 
25 10.32.106. 50 10.32.2 1 201 SMB2 eate Response, Erro STATUS_OBJECT_ 


这 几 个 包 可 以 解析 为 下 述 过 程 。 

24 号 包 : 

客户 端 : “Temp 目 录 中 存在 一 个 叫 DCD652B.tmp 的 文件 吗 ? ” 
25 号 包 : 


服务 器 :“ 不 存在 。” 

26 号 包 : 

客户 端 :“ 那 我 要 创建 一 个 叫 DCD652B.tmp 的 文件 。” 

27 号 包 : 

服务 器 :“ 建 好 了 。” 

38 写 包 : 

客户 端 :“ 把 Excel 里 的 内 容 写 到 DCD652B.tmp 里 。” 

和 号 他 : 

服务 器 :“ 写 好 了 。” 

从 以 上 过 程 可 见 ，Excel 并 没有 直接 把 文件 内 容 存 到 wireshark.xlsx 
上 ， 而 是 存 到 一 个 叫 DCD652B.tmp 的 临时 文件 上 了 。 接 下 来 再 看 ( 见 
图 5) 。 


47 号 包 : 

客户 端 :“/Temp 目 录 里 存在 一 个 叫 6AF04530.tmp 的 文件 吗 ? ” 
48 号 包 : 

服务 器 :“ 不 存在 。” 


97 号 包 : 

客户 端 :“ 那 好 ， 把 原来 的 wiresharkxsx 重 命名 成 
6AF04530.tmp。” 

98 写 包 : 

服务 器 :“ 重 命名 完毕 。” 

103 号 包 : 


客户 端 :“ 再 把 一 开始 那个 临时 文件 DCD652B.tmp 重 命名 成 
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wiresahrk.xlsxo 


104 号 包 : 

服务 器 :“ 重 命名 完毕 。” 

从 以 上 过 程 可 知 ， 原 来 的 wireshark.xlsx 被 重 命 名 成 一 个 临时 文 
件 ， 叫 6AF04530.tmp。 而 之 前 创建 的 那个 临时 文件 DCD652B.tmp 又 被 
重 命 名 成 wireshark.xlsx。 经 过 以 上 步骤 之 后 ， 我 们 拥有 一 个 包含 新 内 
容 的 wireshark.xlsx， 还 有 一 个 临时 文件 6AF04530.tmp (也 就 是 原来 那 
个 wireshark.xlsx) 。 接 着 往 下 看 ， 就 发 现 6AF04530.tmp 被 删除 了 〈 见 
图 6) 。 


115 10, 32, 200.41 10, 32,.106. 50 2014- SM62 SetInNfo Request FILE_INFO/SMB2_FILE_DISPOSITION 
116 10, 32.106. 50 10. 32.200.41 2014- SMB2 SetInfo Response 


do Source Destination Time Protocol jnfo 


微软 把 保存 过 程 设 计 得 如 此 复杂 ， 自 然 是 有 很 多 好 处 的 。 不 过 复 
杂 的 设计 往往 伴随 着 更 多 出 问题 的 概率 ， 因 为 其 中 一 步 出 错 就 意味 着 
保存 失败 。 比 如 上 文 提 到 的 报错 信息 “...is currently in use. Try again 
later”， 大 多 数 时 候 的 确 是 文件 被 占用 才 触 发 的 ， 但 也 有 了 时候 是 Excel 
bug 或 者 杀毒 软件 导致 的 。 无 论 出 于 何 种 原因 ， 我 们 只 有 理解 了 保存 时 
发 生 的 细节 ， 才 可 能 探究 到 真相 。 

Wireshark 正 是 获得 这 些 细节 的 通用 法 宝 ， 任 何 经 过 网 络 所 完成 的 
操作 ， 我 们 都 可 以 从 Wireshark 中 看 到 。 有 了 这 样 的 利器 ， 还 有 多 少 问 
题 能 难 住 你 ? 


你 一 定 会 喜欢 的 技巧 


我 开始 学 习 Wireshark 的 时 候 ， 到 处 碰壁 ， 差 点 就 放弃 了 。 那 时 最 
希望 的 是 有 前 辈 能 指点 迷津 ， 可 惜 四 处 求教 却 鲜 有 收获 。 即 便 多 年 后 
的 今天 ， 网 络 上 能 找到 的 中 文 资料 还 是 窒 究 无 几 ， 少 之 又 少 。 所 以 我 


总 结 了 一 些 自 认 为 称 得 上 技巧 的 东西 ， 希 望 能 才 X 初 学 者 少 走 一 点 谈 
路 。 


™、 抓 包 


拿 到 一 个 网 络 包 时 ， 我 们 总 是 希望 它 尽 可 能 小 。 因 为 操作 一 个 大 
包 相 当 费 时 ， 有 时 甚至 会 死机 。 如 果 让 初学 者 分 析 1GB 以 上 的 包 ， 估 
计 会 被 打击 得 信心 全 无 。 所 以 抓 包 时 应 该 尽量 只 抓 必 要 的 部 分 。 有 很 
多 方法 可 以 实现 这 一 点 。 

1. 只 抓 包 头 。 一 般 能 抓 到 的 每 个 包 ( 称 为 “ 帧 * 更 准确 ， 但 是 出 于 
表达 习惯 ， 本 书 可 能 会 经 常用 * 包 ”代替 “ 帧 ”和 “分 段 ”) 的 最 大 长 度 为 
1514 字 节 ， 启 用 了 Jumbo Frame 〈 巨 型 帧 ) 之 后 可 达 9000 字 节 以 上 ， 而 
大 多 数 时 候 我 们 只 需要 了 P 头 或 者 TCP 头 就 足够 分 析 了 。 在 Wireshark 上 
可 以 这 样 抓 到 包头 : 单 击 菜单 栏 上 的 Capture-->Options， 然 后 在 弹出 
的 窗口 上 定义 “Limit each packet to” 的 值 。 我 一 般 设 个 偏 大 的 数字 : 80 
字 节 ， 也 就 是 说 每 个 包 只 抓 前 80 字 节 。 这 样 TCP 层 、 网 络 层 和 数据 链 
路 层 的 信息 都 可 以 包括 在 内 〈 见 图 1) 。 


| Capture 


Inkerface: Local 加 Intel(R} 32579LM Grgabst Network Connection: \Device\ NPF {Do6| ~、 
P address: 10.32.202.104 
| | Link-layer header type: |Ethemet [=| Wireless Settinas 
IV Capture packets in promiscuous mode R i 
广 一 er E oFLLIN 己 
[Capture packets in pcop-ng formazt (expenmental] | 
2 ire: = | 
~ Limit each packet to 副 | = bytes ee ee | 
| 
| 
Capture Fitter: | = | 
| 一 一 一 一 一 
| Capture Filels)- Display Options 1 | 
| 
File: Browsew, | 园 Update list of pockets in realtime | | 
回 Use multiple files | 
| | z 2 
NE 1 a 开 Autornatic scrolling in live capture | 
Nec file cven 1 minutels 网 Hide capture info dialog | 
Nng butter witt d : fles 
四 -= Nome Resolution 
yop capture after |1 -| file(s) 
a ~ 园 Enable MAC name resolution 
| 四 -after 2 PackeHs FF] Enable network name resolution 
四 after i megabytels 
| .aer 1 全 了 过 | Ensble tronsport name resolution 
[| | Help Start | Cancel 


图 1 


如 果 问 题 涉 及 应 用 层 ， 就 应 该 再 加 上 应 用 层 协 议 头 的 长 度 。 如 果 
你 像 我 一 样 经 党 筷 记 不 同 协议 头 的 长 度 ， 可 以 输入 一 个 大 点 的 值 。 即 
便 设 成 200 字 节 ， 也 比 1514 字 节 小 多 了 。 

以 上 是 使 用 Wireshark 抓 包 时 的 建议 。 用 tcpdump 命 令 抓 包 时 可 以 
用 “-s” 参 数 达 到 相同 效果 。 比 如 以 下 命令 只 抓 eth0 上 每 个 包 的 前 80 字 
节 ， 并 把 结果 存 到 /tmp/tcpdump.cap 文 件 中 。 

[root@server_1 /]# tcpdump -i eth0 -s 80 -w /tmp/tcpdump.cap 

2. 只 抓 必 要 的 包 。 服 务 器 上 的 网 络 连接 可 能 非常 多 ， 而 我 们 只 需 
要 其 中 的 一 小 部 分 。Wireshark 的 Capture Filter 可 以 在 抓 包 时 过 滤 掉 不 
需要 的 包 。 比 如 在 成 百 上 和 干 的 网 络 连 接 中 ， 我 们 只 对 IP 为 
10.32.200.131 的 包 感 兴趣 ， 那 就 可 以 在 Wireshark 上 这 样 设置 : 单 击 菜 


单 栏 上 的 Capture-->Options ， 然 后 在 Capture Filter 中 输 入 “host 
10.32.200.131”( 见 图 2) 。 


| 国 Wireshark': Capture Options [= ey 
| | Capture | 
Jnterfoce; |Locel 图 Intel(R) B2579LM Gigobit Network Connechbon; \Device\ NPF_{DO6 EE 
JP address 10,32,202,104 
Link-layer header type: Ethernet 加 Wireless Sethngs 


加 Capture packets in promiscuous mode 
[ Capture packets in pcap-ng format (experimental) 


Remote Seitings 


(© Limit each packet to 65535 7 bytes Buffersee 1 > megabyte(d) 
[CeptureFltcc| boil0B2001  [D 
| Ca File(s) r Display Optioms- - 
| | File: [Browse..| 


(3) Update list of packets in real time 


© Use multiple files 
区 Automatic scrolling in live capture 


Ned Pile every ] megebytels) 
Ned file every 1 3 | Bitola mx 加 Hide capture info dialog 
Ring buffer with 2 files L J 


-Name Resolution: 


Stop capture after 1 "~ file 

L. [ey) gy 
-Stop Capture ... IV! Enable MAC name resolution 

OD -after 3 中 Pacwetts) I Enable network name resolution 

站 .after 1 mzgabytels) 

加 .atter 1 2 | pre [V) Enable transport name resolution 
= f gm 
| Help Start Cancel | 


图 2 


如 果 对 更 多 tfiter 表达 式 感 兴趣 ， 请 人 参考 
http:/wiki.wireshark.org/CaptureFilters。 

用 tcpdump 命 令 抓 包 时 ， 也 可 以 用 “host” 参 数 达 到 相同 效果 。 比 如 
以 下 命令 只 抓 与 10.32.200.131 通信 的 包 ， 并 把 结果 存 
到 /tmp/tcpdump.cap 文 件 中 。 
[root@server_1 /]# tcpdump.-i eth0 host 10.32.200.131-w /tmp/tcpdump.cap 
注意 : 设置 Capture Filter 之 前 务必 三 思 ， 以 免 把 有 用 的 包 也 过 滤 掉 ， 
尤其 是 容易 被 忽略 的 广播 包 。 当 然 有 时 候 再 怎么 考虑 也 会 失 算 ， 比 如 
我 有 一 次 把 对 方 的 IP 地 址 设 为 flter， 结 果 一 个 包 都 没 抓 到 。 最 后 只 能 


去 掉 filter 再 抓 ， 才 发 现 是 NAT (网 络 地 址 转换 ) 设备 把 对 方 的 IP 地 址 
改 掉 了 。 

抓 的 包 除 了 要 小 ， 最 好 还 能 为 每 步 操 作 打 上 标记 。 这 样 的 包 一 目 
了 然 ， 赏 心 悦 目 。 比 如 要 在 Windows 上 抓 一 个 包含 三 步 操作 的 问题 ， 
会 这 样 抓 。 

(1) ping <IP> -n1-11 

(2) 操作 步骤 1 

(3) ping <IP> -n1-12 

(4) 操作 步骤 2 

(5) ping <IP> -n1-13 

(6) 操作 步骤 3 

如 图 3 所 示 ， 如 果 我 需要 分 析 步 骤 1， 则 只 要 看 146~183 之 间 的 包 
即 可 。 注 意 到 146 号 包 最 底下 的 “Data (1 byte) ”了 吗 ? byte 的 数目 表示 
是 第 几 步 ， 这 样 就 算 在 步骤 很 多 的 情况 下 也 不 会 混乱 。 

抓 包 的 技巧 还 有 很 多 ， 比 如 可 以 写 一 个 脚本 来 循环 抓 包 ， 等 侦察 
到 某 事 件 时 自动 停止 。 一 位 工程 师 即 便 不 懂 网 络 分 析 ， 但 如 果 能 抓 得 
一 手 好 包 ， 也 是 一 项 很 了 不 起 的 技能 了 。 


Fitter icmp [= | seression.， Clear Apply 

No. Source Destination Time Protocol jnfe 
145 10.32. 202.104 10.32.106.173 2013-07-04 09:51:17,431478 ICMP Echo (ping) request 

.32.202 7-04 09;51 Echo (ping) reply 

183 10.32.202.104 10.32.106.173 2013-07-04 09:51:22,940992 ICMP Echo (ping) request 
184 10.32.106.173 10.32.202.104 2013-07-04 09:51:22,941829 ICMP Echo (ping) reply 
192 10.32. 202.104 10.32.106.173 2013-07-04 09:51:25.995789 ICMP Echo (ping) request 
193 10.32.106.173 10.32.202.104 2013-07-04 09:51:25,996372 ICMP Echo (ping) reply 


5E Frame 14b: 60 bytes on wire (48U bits), bY bytes captured (4y0 bits) 
5 Ethernet II，Src: Cisco_e3:a8:40 (ec:30:91:e3:a8:40), Dst: Dell_68:80:28 (5c:26:0a:68:80:28] 
5 Internet Protocol, Src: 10. 32.106.173 (10.32.106.173), Dst: 10.32.202.104 (10.32,202,104) 
= Internet Control Message Protoco] 
Type: 0 (Echo (ping) reply) 
Code: 0 
Checksum: 0x9ed4 [correct] 
Identifier (BE): 1 (0x0001) 
Identifier (LE): 256 (Qx0100) 
Sequence number (BE): 42 (0x002a) 
Sequence number (LE): 10752 (Dx2aD0) 
EData (1 byte) 


二 、 个 性 化 设置 


Wireshark 的 默认 设置 卉 称 友好 ， 但 不 同 用 户 的 从 事 领 域 和 使 用 习 
惯 各 有 不 同 ， 所 以 有 时 需要 根据 自己 的 情况 对 配置 略 作 修改 。 

1. 我 经 常 需要 参照 服务 器 上 的 日 志 时 间 ， 找 到 发 生 问题 时 的 网 络 
包 。 所 以 就 把 Wireshark 的 时 间 调 成 跟 服 务 器 一 样 的 格式 。 单 击 
Wireshark 的 View-->Time Display Format-->Date and Time of Day， 就 可 


以 实现 此 设置 ( 见 图 4) 。 
加 The wreshark Network Anoizcr 轴 om 


p 
| v Main Toolbar 洲 千 晶 || 歧 | 国 | 信人 贸 胡 匡 古国 网 莹 | 


~ EliterTeolbar . " 
| Wireless Toolbar u [| Expression,., Clear Apply 


Y Stotusbar 


Y PacketList Popular Network Protocol Analyzer 
Y Packet Deteiks 
Y Packet Bytes 


| Time Display Format FF» Dateand Time of Dasy: 1970-01-01 010203.123456 Ctrir Alt+1 | 


图 4 


2. 不 同类 型 的 网 络 包 可 以 自 定义 颜色 ， 比 如 网 络 管理 员 可 能 会 把 
OSPF 等 协议 或 者 与 Spanning Tree Protocol (生成 树 协议 ) 相关 的 网 络 
包 设 成 最 显眼 的 颜色 。 而 文件 服务 器 的 管理 员 则 更 关心 FTP、SMB 和 
NFS 协 议 的 颜色 。 我 们 可 以 通过 View -->Coloring Rules 来 设置 颜色 。 如 
果 同 事 已 经 有 一 套 非常 适合 你 工作 内 容 的 配色 方案 ， 可 以 请 他 从 
Coloring Rules 窗 口 导 出 ， 然 后 导入 到 你 的 Wireshark 里 〈 见 图 5) 。 记 
得 下 次 和 他 吃饭 时 主动 买单 ， 要 知道 配 一 套 养眼 的 颜色 可 要 花 不 少时 
间 。 


iTOrder 
a List is processed in order until match is found 
Name String 全 
Edit.. Up 
Enable 
| 
Disable 
| SM | Move 
Delete selected filter 
| up or down 
-Manage— JPX ipx|| spx 
| Routing hsrp || cigrp || ospf || bgp || cdp || vrrp || gvrp lligmpllismp 
| Export,.. Ds 
| TCP tcp = 
| Clear < | 加 | 上 
[Spy [Se 


3. 更 多 的 设置 可 以 在 Edit-->Preferences 窗 口中 完成 。 这 个 窗口 的 
设置 精度 可 以 达到 一 些 协 议 的 细节 。 比 如 在 此 窗口 单 击 Protocols-- 
>TCP 就 可 以 看 到 多 个 TCP 相 关 选 项 ， 
介绍 。 假 如 经 常 要 对 Sequence Number 做 加 减 运 算 ， 不 妨 选 中 Relative 
( 见 图 6) ， 这 样 会 使 Sequence number 看 上 去 比 实际 


sequence numbers 
小 很 多 。 


多 5 


TCPENCAP 
TDS 

Teredo 
TFTP 

ht 

TNS 
Token-Ring 
TPKT 
TPNCP 

| TE 

UCP 

UDP 
UDPplte 
ULP 

UMA 
UNJSTIM 


[| Hep | 


Show TCP summary in protocol tree 


Validate the TCP checksum if possible: FE 
Allow subdissector to reassemble TCP streams: 


Analyze TCP sequence numbers 


Relatve sequence numbers: 


Window scaling 


Track number of bytes in flight 


Calculate conversation timestamps 


Try heuristic sub-dissectors fitst 


Display timestamp values in the summary pane 


Display SACK ranges in the summary Pen 


[ox J][ sepy | Sore | 


图 6 


将 鼠标 停 在 每 一 项 上 都 会 有 详细 


4. 如 果 你 在 其 他 时 区 的 服务 器 上 抓 包 ， 然 后 下 载 到 自己 的 电脑 上 
分 析 ， 最 好 把 自己 电脑 的 时 区 设 成 跟 抓 包 的 服务 器 一 样 。 这 样 ， 
Wireshark 显 示 的 时 间 才 能 匹配 服务 器 上 日 志 的 时 间 。 比 如 说 ， 服 务 器 
的 日 志 显示 2/13/2014 13:01:32 有 一 个 错误 信息 。 那 我 们 要 在 自己 电脑 
上 调整 时 区 之 后 ， 才 能 到 Wireshark 上 检查 2/13/2014 13:01:32 左 右 的 
包 ， 否 则 就 得 先 换算 时 间 。 


很 多 时 候 ， 解 决 问题 的 过 程 就 是 层 层 过 流 ， 直 至 找到 关键 包 。 前 
面 已 经 介绍 过 抓 包 时 的 Capture Filter 功 能 了 。 其 实在 包 抓 下 来 之 后 ， 
还 可 以 进一步 过 滤 ， 而 且 这 一 层 的 过 滤 功能 更 加 强大 。 图 7 表示 一 个 
“IP 为 10.32.106.50， 且 TCP 端 AE ee 


Fitter. ip.addr A ER | Eqpression 
Source T 


要 说 过 滤 的 作用 与 技巧 ， 就 算 专 门 写 一 本 小 册子 都 不 为 过 。 篇 幅 
所 限 ， 本 文 只 能 “过 滤 ” 出 最 适合 初学 者 的 部 分 。 

1. 如 果 已 知 某 个 协议 发 生 问题 ， 可 以 用 协议 名 称 过 滤 一 下 。 以 
Windows Domain 的 身份 验证 问题 为 例 ， 如 果 已 知 该 域 的 验证 协议 是 
Kerberos， 那 么 就 在 Filter 框 输入 Kerberos 作 为 关键 字 过 滤 。 除 了 纯粹 的 
Kerberos 包 ， 你 还 将 得 到 Session Setup 之 类 包含 Kerberos 的 包 ( 见 图 
8) 。 


FiteF kerberos 加 Expression-， Clear A£pply 
Protocol Jnfo 
2510 .1 EE 人 2 ?ne 103 2012-03-14 15s1a: OE Te 
i116 -RE 


到 


30 10 


图 8 


用 协议 过 滤 时 务必 考虑 到 协议 间 的 依赖 性 。 比 如 NFS 共 享 挂 载 失 
败 ， 问 题 可 能 发 生 在 挂 载 时 所 用 的 mount 协 议 ， 也 可 能 发 生 在 mount 之 
前 的 portmap 协 议 。 这 种 情况 下 就 需要 用 “portmap || mount” 来 过 滤 了 

( 见 图 9) 。 如 果 不 懂 协议 间 的 依赖 关系 怎么 办 ? 我 也 没有 好 办 法 ， 只 
能 暂时 放弃 这 个 技巧 ， 等 熟悉 了 该 协议 后 再 用 。 


Fiter portmep ll mount | > | Expression,.. Clear Apply 
No, Source Destination Time Protocol Info 

112 10. 32.106.159 06.62 2013-07-15 14; 7 2 PortmapVv2 GETPORT Call (reply In 113) N 
113 10, 32,106. 62 06,159 2013-07-15 14: Portmap V2 GETPORT Reply (Call In 112) P 


00003) Vv:3 TEP 
2049 


2. 了 下 地 址 加 port 号 是 最 常用 的 过 滤 方 式 。 除 了 手工 输入 
ip.addreq<IP 地址 > &&xtcp.porteq< 端 口号 > 之 类 的 过 滤 表 达 式 ， 
Wireshark 还 提供 了 更 快捷 的 方式 : 右键 单 击 感 兴 趣 的 包 ， 选 择 Follow 
TCP/UDP Stream 《选择 TCP 还 是 UDP 要 视 传 输 层 协议 而 定 ) 就 可 以 自 
动 过 滤 〈 见 图 10) 。 而 且 该 Stream 的 对 话 内 容 会 在 新 弹出 的 窗口 中 显 


A rE Er ET I mi Mark Packet (toggle] 
12 10; 32. 105. 2 10.32.200.43 2023 A Dy 34; 30.474797 SR lm Comnest Andx nesponse Inore Packet (toggle} 


0. 32.1 H (© SetTime Reference (togyle) 
14 1 32- lo5 2 站 了 2- ER 43 2013-10-03 or: 4: 0 473051 Sn6 Trans2 Resparse， QUERYPAT 


Manually Resolve Address 
16 10. 32. 105. fa 10. 32. 2oo， #43 2013 -10-03 07: 3 30. 473913 5 le Response， QUERY-PAT 
Re pA 


| pry Filter 
18 3 32- 105. 四 本 a 32: 200. 43 2013-10-03 o7:3: a0- 475274 snB Transz Respanse， QUERY-PAT Pr a Filter 
1 1¢ HH mversstion Filter 
20 10. 32. 106. 2 A 32. 200, 43 2013- 10-03 7 34: 30, 476100 SMB  Trdre2 a epAT 加 lorire Conversation 
0 Ee % 
en 
Frame 10; 156 bytes on wire (124 bits), 155 bytes a red (12468 bits) a 
Ethernet II，Src: Cisco_e3:a6:80 (ec:30:91:e3:a6:80), Dst: Dell_58:80:28 (5c:26:0a:68:80:28) | olow UDP Stresm 
Interner protocol, src: 10.32,106.72 (10.32.106.72), 一 一 10.32,200.43【〔〈10. 32.200.43) | Follow SSL Strear 
10 


经 常 有 人 在 论坛 上 问 ，Wireshark 是 按照 什么 过 滤 出 一 个 TCP/UDP 

Stream 的 ? 答案 就 是 : 两 端的 IP 加 port。 单 击 Wireshark 的 Statistics-- 

>Conversations， 再 单 击 TCP 或 者 UDP 标 签 就 可 以 看 到 所 有 的 Stream 
( 见 图 11) 。 


tthernet 1 | Hbre Chasr pel | to | pw: ef pw | 地 | jxX1# | NC+H | KoVb| ae Ning | WDE; 4| UbU | WWLAN 


TCP Conversatio! 


AddressA 4 PortA4 AddressB 4 portB 4 packets 4 ies 4 PacketsA—B 4 BytesA—B 4 Packets A-B4 BytesA-B < 
| | 10.32.105.65 61070 1032105.159 S1161 2 132 1 56 1 
1032106.77 61070 1032.106159 #6389 2 132 1 的 1 
I 10.32,106,54 61070 10.32,106,159 53897 2 132 1 5 1 
10.32.105.59 61070 1032.106.159 #0652 2 132 1 5 1 
员 | 1032105.56 61070 C1032.106159 48824 2 B32 1 的 1 A 
p mn 
| VV Nomeresoluton | Limit to display filter 
Help Lopy Follow Stream Close | 


图 11 


3. 用 鼠标 帮助 过 滤 。 我 们 有 时 因为 Wireshark 而 苦恼 ， 并 不 是 因 
为 它 功能 不 够 ， 而 是 强大 到 难以 驾驭 。 比 如 在 过 滤 时 ， 有 成 千 上 万 的 
条 件 可 供 选 择 ， 但 怎么 写 才 是 合乎 语法 的 ? 虽然 
http://www.wireshark.org/docs/dfref/ 提供 了 参 老 ， 但 经 瘦 查 找 毕 竟 太 费 
时 费力 了 。Wireshark 考 虑 到 了 这 个 需求 ， 右 链 单 击 Wireshark 上 感 兴趣 
的 内 容 ， 然 后 选择 Prepare a Filter-->Selected， 就 会 在 Filter 框 中 自动 生 
成 过 滤 表 达 式 。 在 有 复杂 需求 的 时 候 ， 还 可 以 选择 And、Or 等 选项 来 
生成 一 个 组 合 的 过 滤 表 达 式 。 

假如 右键 单 击 之 后 选择 的 不 是 Prepare a Filter， 而 是 Apply as Filter- 
->Selected， 则 该 过 滤 表 达 式 生成 之 后 还 会 自动 执行 。 图 12 显 示 了 在 一 
个 SMB 包 的 SMB Command: Read AndX 上 右键 单 击 ， 并 选择 Selected 之 
后 ， 所 有 的 Read 包 都 会 被 过 滤 出 来 。 
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4. 我 们 可 以 把 过 滤 后 得 到 的 网 络 包 存 在 一 个 新 的 文件 里 ， 因 为 小 
文件 更 方便 操作 。 单 击 Wireshark 的 File-->Save As， 选 中 Displayed 单 选 


So to Corresponding Packex 


图 12 


SMB Read AndXx Rega 
AndX Feag 
AndX Reag 
AnmdX Reoq 


AndX Rea 


my 
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按钮 再 保存 ， 得 到 的 新 文件 就 是 过 滤 后 的 部 分 ( 见 图 13) 。 


圆 Wiresharkc Save file 3s 本 Cam。 


Soven: | MM CIFS "| 


EB windows7.cap 
全 
Ep.cap 


5 四 时 图 ~ 
Date modified 
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图 13 


有 时 候 你 会 发 现 ， 保 存 后 的 文件 再 打开 时 会 显示 很 多 错误 。 这 是 
因为 过 滤 后 得 到 的 不 再 是 一 个 完整 的 TCP Stream， 就 像 抓 包 时 漏 抓 了 
很 多 一 样 。 所 以 选择 Displayed 选 项 时 要 慎重 考虑 。 

注意 : 有 些 Wireshark 版 本 把 这 个 功能 移 到 了 菜单 File-->Export 


Specified Packets... 选 项 中 ， 如 图 14 所 示 。 
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总 体 来 说 ， 过 滤 是 wireshark 中 最 有 趣 ， 最 难 ， 也 是 最 有 价值 之 
处 ， 值 得 我 们 用 心 学 习 。 


四 、 让 Wireshark 自 动 分 析 


有 些 类 型 的 问题 ， 我 们 根本 不 需要 研究 包 里 的 细节 ， 直 接 交 给 
Wireshark 分 析 就 行 了 。 

1. 单 击 Wireshark 的 Analyze-->Expert Info Composite， 就 可 以 在 不 
同 标签 下 看 到 不 同 级 别 的 提示 信息 。 比 如 重 传 的 统计 、 连 接 的 建立 和 
重 置 统计 ， 等 等 。 在 分 析 网 络 性 能 和 连接 问题 时 ， 我 们 经 常 需要 借助 
这 个 功能 。 图 15 是 TCP 包 的 重 传统 计 。 
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圆 Wiresharic 997214 Eqpert Infos 人 2 Te a “2 
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图 15 


2. 单 击 Statistics-->Service Response Time， 再 选 定 协议 名 称 ， 可 
以 得 到 响应 时 间 的 统计 表 。 我 们 在 衡量 服务 器 性 能 时 经 常 需要 此 统计 
结果 。 图 16 展 示 的 是 SMB2 读 写 操作 的 响应 时 间 。 


国 SMB2 Service Response Time statistics: slice_ 00002 20130911151654xap 
-一 


SMB2 Service Response Time statistics 
Filter: 
SMB2 Commands 


Index 4 Procedure 4 Calls Min SRT 4 MaxSRT 4 Avg SRT 
8 Read 4959 “0.000248 0272905 0040351 
9 Write 367 0.000183 01417245 0044321 
17 Setinfo 261 0.000119 0219478 002987¢ 


图 16 


3. 单 击 Statistics-->TCP Stream Graph， 可 以 生成 几 类 统计 图 。 比 
如 我 曾经 用 Time-Sequence Graph (Stevens) 生 成 了 图 17。 
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图 17 


从 图 17 中 可 以 看 出 25~40 秒 ， 以 及 65~75 秒 之 间 没 有 传输 数据 。 
进一步 研究 ， 发 现 发 送 方 内 存 不 足 ， 所 以 偶尔 出 现 暂 停 现 象 ， 添 加 内 
存 后 问题 就 解决 了 。 

为 什么 Wireshark 要 把 这 个 图 称 为 “Stevens” 呢 ? 我 猜 是 为 了 辐 

《TCP/IP Illustrated》 的 作者 Richard Stevens 致 获 。 这 也 是 我 非常 喜欢 
的 一 套 书 ， 在 此 推荐 给 所 有 读者 。 

4. 单 击 Statistics-->Summary， 可 以 看 到 一 些 统 计 信 息 ， 比 如 平均 
流量 等 ， 这 有 助 于 我 们 推测 负载 状况 。 比 如 图 18 中 的 网 络 包 才 
1.594Mbit/s， 说 明 流 量 低 得 很 。 


国 Wireshark Summary 一 jo a 


File 
Name CNboot book materiaht Fimp.cap 
Lermdgth: 552759 byter 
Fanmat Wireshark/tcpdyump. - libpcap 
Encapsulattion: Ethernet 
Backet size lirmit: 5535 bytes 


Time 
First packet 2013-10-06 11617 
Last packet: 2013-190-06 1]61704 
Elapsedk Wt:D2 


Capture 
Intertace: UnkErmown 
Dropped packets Da 
Capturefiltter: unbmown 


Display filter: 
[gnored packets: 
Traffic Captured 1 Displayed 4 harked 
Packets 748 748 0 
Betyreen first and lost pocket 了 ,六 了 Ser 
Byvy, packets/ser 了 7 3.554 
Svg, packet SEE T2951 bytes 
Bytes 54076 了 
是 可 .bytesyser 十 9921 .2879 


vg. Nietrsec 


图 18 


五 、 最 容易 上 手 的 搜索 功能 


与 很 多 软件 一 样 ，Wireshark 也 可 以 通过 “Ctrl+F” 搜 索 关 键 字 。 假 
如 我 们 怀疑 包 里 含有 “error” 一 词 ， 就 可 以 按 下 “CtrltF” 之 后 选中 
“String” 单 选 按钮 ， 然 后 在 Filter 中 输入 “error” 进 行 搜索 ( 见 图 19) 。 很 
多 应 用 层 的 错误 都 可 以 靠 这 个 方法 锁定 问题 包 。 
国 Wireshark Find Packet 
Find- 
By: © Displayfiltar © Hervalue @ sting 


Filter | Ferradl 


earch In |r3tnng Options 


Packet list | Case sensitive 
EE Packet details | Character set: 
© Packet bytes | B500 Unicede B Nan-Unicode 图 


本 一 本 me 


图 19 


一 篇 文章 不 可 能 涵盖 所 有 技巧 ， 本 文 就 到 此 为 止 。 最 后 要 分 享 
的 ， 是 我 认为 最 “ 笨 ” 但 也 是 最 重要 的 一 个 技巧 一 一 勤 加 练习 。 只 要 练 
到 这 些 技巧 都 变 成 习惯 ， 就 可 以 算 登 堂 入 室 了 。 


Patrick 的 故事 


我 还 在 山脚 下 的 时 候 ，Patrick 已 经 在 山顶 了 。 人 至 今 我 还 只 能 在 山 
坡 仰 望 他 。 

第 一 次 听 说 Patrick 的 名 字 是 在 6 年 前 。 当 时 我 初 入 存储 行业 ， 经 常 
被 各 类 难题 所 困 。 有 一 次 ， 我 要 把 大 批文 件 从 Windows 迁 移 到 文件 服 
务 器 (NAS) 上 ， 不 知道 为 什么 有 些 文 件 就 是 过 不 去 ， 报 错 信息 也 没 
有 参考 价值 。 走 投 无 路 之 际 ， 一 位 美国 同事 提 了 个 建议 : 我 司 在 疲 士 


顿 有 一 位 很 厉害 的 专家 ， 也 许可 以 请 教 一 下 他 。 我 抱 着 试 一 试 的 态度 
发 了 一 封 求助 信 ， 没 想到 十 几 分 钟 后 就 得 到 回复 。 专 家 建议 我 抓 一 个 
网 络 包 ， 然 后 用 Wireshark 看 看 这 些 文件 有 没有 特殊 属性 。 我 立即 照 
办 ， 果 然 在 这 些 文件 上 看 到 Temporary 属 性 。 知 道 原因 后 ， 问 题 很 快 就 
解决 了 。 那 是 我 第 一 次 接触 wireshark， 而 那 位 专家 就 是 Patrick。 

从 此 我 就 喜欢 上 了 Wireshark， 因 为 它 实 在 很 有 用 ， 就 像 是 学 武之 
人 得 到 了 一 把 称 手 好 剑 。 而 Patrick 却 渐渐 被 我 淡忘 了 。 直 到 一 年 之 
后 ， 我 又 遇 到 这 样 一 个 难题 : 有 一 台 文 件 服务 器 的 读 性 能 只 有 
10MB/s， 远 低 于 客户 的 期 望 。 我 尝试 过 很 多 调 优 方式 ， 性 能 却 只 降 不 
升 。 徒 劳 三 天 之 后 ， 我 对 自己 彻底 失去 信心 。 这 时 候 我 又 想起 了 
Patrick， 说 不 定 他 能 给 点 意见 呢 。 于 是 我 上 传 了 一 个 网 络 包 ， 请 他 帮 
忙 分 析 。 一 小 时 后 奇迹 再 次 出 现 ， 我 收 到 了 他 的 回信 。 信 中 提 到 两 点 
建议 。 


* TCP 超 时 重 传 的 间隔 时 间 太 长 ， 设 置 一 个 较 小 的 时 间 可 以 减少 重 
传 对 性 能 的 影响 。 


* 该 网 络 频繁 拥塞 ， 拥 塞 点 大 多 在 32KB 以 上 。 如 果 把 发 送 窗口 限 
制 在 32KB， 就 可 以 避免 触 碰 拥 塞 点 。 


我 简直 不 敢 相 信 这 些 分 析 ， 短 短 一 个 小 时 怎么 能 看 出 这 么 深奥 的 
原因 ? 我 好 获 也 用 了 一 年 Wireshark 了， 几乎 每 个 菜单 都 很 熟悉 ， 却 从 
来 不 知道 有 个 地 方 可 以 看 出 拥塞 点 。 不 过 有 了 上 次 的 成 功 经 验 ， 我 决 
定 还 是 尝试 一 下 这 两 条 建议 。 在 把 超时 重 传 时 间 减 小 之 后 ， 读 性 能 立 
即 达 到 20MB/s， 比 之 前 提高 了 一 倍 。 这 个 结果 实在 太 振 奋 人 心 ， 一 扫 
三 天 来 的 阴 腹 。 我 赶紧 再 设置 发 送 窗口 ， 没 想到 性 能 又 提高 了 一 倍 ， 
达到 40MB/s。 现 场 的 工程 师 和 客户 都 在 欢呼 ， 我 在 电话 上 也 久久 不 能 
平静 。 这 时 候 我 才 真正 被 Patrick 的 实力 所 震撼 。 觉 得 自己 就 像 武 侠 小 
说 中 初 涉 江 湖 的 少年 ， 一 年 前 被 深 藏 不 露 的 大 侠 所 救 ， 却 只 看 到 好 剑 


的 厉害 。 一 年 后 再 次 身 陷 险 境 ， 看 到 大 侠 出 招 ， 才 知道 自己 有 眼 不 识 
泰山 ， 恨 不 得 立即 奢 头 拜师 。 

到 我 学 会 在 Wireshark 上 看 拥塞 窗口 ， 已 经 是 半年 后 的 事 了 。 期 
间 我 重读 了 Richard Stevens 的 《TCP/IP Illustrated》 ， 遇 到 疑难 就 请 教 
Patrick。 他 每 次 的 回信 都 极 像 专业 论文 ， 篇 幅 极 长 却 又 字 字 珠 现 ， 有 
一 次 甚至 当场 写 了 个 程序 帮 有 我 理解 概念 。 他 的 严 递 、 耐 心 和 分 享 精 神 
都 堪 称 顶级 工程 师 的 典范 。 假 如 说 他 是 一 位 老师 ， 那 一 定 是 我 求学 路 
上 碰 到 过 最 为 出 色 的 老师 。 我 专门 在 Outlook 里 设 了 一 个 rule， 把 他 的 
所 有 邮件 放 在 一 起 ， 至 今 一 封 都 没有 删 过 。 在 非 技 术 问 题 上 ，Patrick 
从 来 惜 字 如 金 。 我 曾经 问 他 : “Have you ever thought about writing a 
book?” 他 很 简单 地 回答 : “I am not a good author” 如 果 他 都 不 算 good 
author 的 话 ， 有 几 个 人 称 得 上 好 ? 即便 把 我 收藏 的 这 些 邮 件 集 结 起 
来 ， 也 是 一 本 好 书 了 。 

我 曾经 想 过 ， 将 来 某 一 天 能 不 能 学 到 Patrick 的 水 平 ? 现在 已 经 不 
考虑 这 个 问题 了 ， 因 为 我 发 现 他 的 技术 似乎 是 没有 边界 的 。 有 一 天 ， 
我 被 一 个 Active Directory 的 问题 难 住 ， 微 软 的 工程 师 也 无 可 人 奈何， 他 
却 精准 地 解决 了 。 我 才 知 道 他 对 Windows Domain 也 深 有 研究 。 当 天 中 
午 和 研发 部 门 的 同事 一 起 吃饭 时 ， 我 向 他 提起 了 无 所 不 知 的 Patrick。 
没 想到 这 位 同事 也 很 震惊 , “他 懂 这 么 多 啊 ? 我 只 知道 他 正在 帮 有 我 们 处 
理 一 个 操作 系统 的 问题 。” 从 同事 转 来 的 邮件 上 ， 我 果然 看 到 Patrick 向 
他 讲解 了 一 个 操作 系统 的 细节 问题 。 这 时 我 不 禁 想 起 他 自 谦 过 的 一 句 
话 “Everybody has his expertise”。 可 是 有 什么 技术 领域 不 是 你 的 
expertise? 我 很 想 当 面 问 问 这 位 素 未 谋面 的 老师 。 

几 年 后 我 到 疲 士 顿 开会 ， 第 一 个 想见 的 人 就 是 Patrick。 我 市 了 中 
国 点 心 ， 也 带 着 很 多 感谢 去 拜访 他 。 可 惜 他 那天 没有 在 办 公 室 里 出 
现 。 邻 座 的 同事 说 , “我 们 也 很 久 没 有 见 到 Patrick 了 ， 他 在 家 里 办 公 ， 
而 且 是 在 夜里 。” 听 说 我 是 从 中 国 莫 名 而 来 ， 这 位 同事 滔滔 不 绝地 说 
起 大 家 对 Patrick 的 敬仰 ， 并 表示 要 帮忙 联系 。 我 考虑 到 他 在 夜里 工 


作 ， 白 天 肯定 要 休息 ， 只 能 放弃 登门 拜访 的 念头 。 回 国 后 收 到 Patrick 
的 邮件 ， 原 来 他 知道 后 第 二 天 就 去 了 办 公 室 ， 可 惜 我 那 时 已 经 在 飞机 
上 了 。 

所 以 我 至 今 没有 见 过 Patrick， 但 这 又 有 什么 关系 ? 在 网 络 时 代 ， 
有 些 人 就 算 从 来 没有 机 会 见面 ， 甚 至 不 知道 年 龄 和 种 族 ， 也 可 以 是 最 
好 的 老师 。 


Wireshark 的 前 世 今 生 


这 是 一 个 无 关 技术 的 小 故事 。 但 是 作为 Wireshark 爱 好 者 ， 了 解 一 
下 这 个 软件 的 前 世 今 生 也 是 极 好 的 ， 谁 不 想 在 中 午 和 同 (ling) 事 
(dao) 一 起 吃饭 的 时 候 讲 个 业内 小 故事 ， 显 得 自己 业务 精湛 又 品味 不 
俗 呢 ? 

故事 要 从 20 世 纪 90 年 代 开始 说 起 。 那 时 的 IT 业 欣欣 向 荣 : 摩托 罗 
拉 正 野心 勃勃 地 实施 镀 星 计划 ; Google 的 两 位 创始 人 还 在 房东 的 车 库 
里 研究 搜索 引擎 。 我 们 故事 的 主人 公 Gerald Combs 还 是 默默 无 闻 的 青 
年 。 和 那个 时 代 的 很 多 工程 师 一 样 ，Gerald 技 术 精 瀑 ， 热 情 上 进 ， 动 
手 能 力 极 强 。 他 就 职 于 一 家 网 络 提供 商 ， 时 常 需 要 分 析 软 件 来 辅助 工 
作 。 可 是 这 样 的 软件 太 少 了 ， 而 且 一 个 license 就 要 80,000 美 金 。 即 便 在 
今天 的 美国 ， 这 也 不 是 一 笔 小 数目 。 

和 我 们 中 的 很 多 人 不 一 样 ，Gerald 没 有 下 载 盗版 软件 ， 而 是 决定 
自己 写 一 个 。 他 单枪匹马 忙碌 了 几 个 月 。 我 们 今天 仍 能 想见 其 中 的 艰 
平一 即便 是 从 业 多 年 的 工程 师 ， 对 很 多 网 络 协议 还 一 知 半 解 ， 更 不 要 
说 开发 一 个 能 分 析 协 议 的 软件 了 。 而 一 位 工程 师 既 精通 多 种 协议 ， 又 
能 瑟 好 代码 ， 更 是 常人 难以 企及 的 境界 。 但 谦虚 的 Gerald 一 直 对 此 轻 
描 淡 写 ，“] spent several months doing research and making notes.” 到 了 


1998 年 7 月 ， 这 个 软件 终于 面世 了 。 它 带 来 了 这 样 的 功能 : 当 你 透 过 它 


到 网 络 时 ， 不 再 是 没有 意义 的 0 和 1， 而 是 可 以 理解 的 简洁 文字 。 有 
了 它 的 专业 解说 ， 我 们 几乎 能 直接 看 懂 网 络 上 发 生 的 一 切 。 以 前 难以 
排查 的 问题 ， 在 它 介 入 后 便 显露 无 遗 。 它 还 提供 了 权威 的 分 析 报 告 ， 
比如 重 传 率 统 计 、 响 应 时 间 和 对 话 列表 等 ， 这 解放 了 原本 负担 繁重 的 
网 络 管理 员 ， 使 他 们 有 更 多 时 间 专 注 其 他 事务 。 

Gerald 把 这 个 软件 命名 为 Ethereal， 正 对 应 了 它 的 功能 一 还 原 以太 
网 的 真相 。Ethereal 的 代码 版 权 自然 属于 Gerald， 而 他 所 在 的 公司 NIS 

(Network Integration Services) 则 拥有 Ethereal 商 标 。 当 时 谁 也 没有 想 
到 ， 这 个 归属 权 会 在 多 年 后 引起 一 场 风 疲 。 由 于 Ethereal 写 得 太 好 了 ， 
而 且 是 以 GNU GPL 开源 许可 证 发 布 的 ， 世 界 各 地 的 开发 者 纷纷 参与 
到 这 个 项 目 中 。 没 过 多 久 ， 它 就 涵盖 了 世界 上 大 多 数 通信 协议 ， 成 为 
广 受 欢迎 的 网 络 分 析 软 件 。 它 可 以 用 于 教学 ， 如 果 网 络 教师 用 它 辅 助 
上 课 ， 可 以 大 大 提高 学 生 的 兴趣 。 也 可 以 辅助 开发 和 测试 ， 是 调试 网 
络 程序 的 好 工具 。 当 然 它 最 大 的 用 途 还 是 诊断 问题 ; 从 数据 链 路 层 到 
应 用 层 的 种 种 协议 ， 几 乎 涉及 网 络 的 地 方 就 有 它 的 用 武之 地 。 更 难得 
的 是 ，Gerald 并 没有 打算 从 中 获 利 ， 它 至 今 还 是 完全 免费 的 ， 每 位 愿 
意 学 习 的 工程 师 都 可 以 受益 。 

世界 的 变化 总 是 超 乎 我 们 的 想象 ， 尤 其 是 在 IT 业 。 没 几 年 时 间 ， 
猎 星 计划 彻底 破产 ; Google 却 成 了 最 大 的 网 络 公司 。 只 有 Gerald 没 有 
变化 ， 一 直 在 就 诡 业 业 地 维护 Ethereal。 每 个 月 都 有 新 的 协议 出 现 , 已 
有 的 协议 也 在 推出 新 版 本 ， 他 永远 有 忙 不 完 的 活 。 中 间 仪 仪 发生 过 一 
次 改名 风波 : 2006 年 他 离开 NIS， 加 入 了 CACE。 由 于 和 老 东 家 在 
Ethereal 的 商标 问题 上 无 法 达成 一 致 ，Gerald 把 项 目 改名 为 Wireshark。 
从 此 Ethereal 这 个 风靡 多 年 的 项 目 停 止 了 ， 只 留 下 www.ethereal.com 域 
名 。 我 们 至 今 还 能 访问 它 ， 但 是 会 被 重 定向 到 一 家 叫 AOS 的 公司 。 为 
什么 不 是 重 定向 到 NIS 呢 ? 因为 NIS 在 2011 年 被 AOS 合 并 了 。 

Wireshark 延 续 了 Ethereal 的 成 功 ， 现 在 有 成 千 上 万 的 开发 者 在 追随 
Gerald。 每 年 还 会 召开 一 次 为 期 4 天 的 Sharkfest 大 会 。2011 年 Wireshark 


在 SecTools 排行 第 一 ，2012 年 被 Insecure.org 评 为 “No. 1 Packet 
Sniffers”。 美国 的 技术 作家 们 开始 为 它 著 书 立 说 ， 中 国 的 出 版 社 也 在 
引进 (比如 人 民 邮 电 出 版 社 引 进出 版 的 《Wireshark 数 据 包 分 析 实 战 
(第 2 版 ”》) 。 值 得 一 提 的 是 ，CACE 后 来 被 Riverbed 收 购 了 ， 

Riverbed 成 了 Wireshark 项 目的 赞助 商 。 很 多 中 国 工 程 师 可 能 觉得 
Riverbed 名 不 见 经 传 ， 但 说 到 Linux 里 常用 的 tcpdump 命 令 就 不 会 阳 
生 。tcpdump 的 开发 者 之 一 Steve McCanne 就 是 Riverbed 的 CTO。 而 
WinPcap 的 开发 者 Loris Degioanni 也 在 Riverbed 工 作 。 似 乎 昌 竖 之 中 自 
有 天 意 ，Riverbed 把 网 络 探测 界 的 先锋 们 聚 到 了 一 起 。 我 们 要 向 
Riverbed 致 燥 ， 多 亏 了 这 些 伟大 的 工具 ， 我 们 才 得 以 时 探 网 络 的 秘 

Gerald 不 久 前 在 Twitter 上 宣布 ，“Wireshark is, and will always be 
open Source。 ”其 实 Wireshark 即 便 不 再 开源 也 不 会 抹杀 他 的 成 就 。 改 变 
世界 的 IT 大 雄 ， 可 以 像 Jobs 一 样 领导 一 个 成 功 的 公司 ， 更 可 以 像 Gerald 
一 样 创造 一 件 传世 的 作品 。 他 们 的 成 就 一 样 会 被 外 刻 在 IT 历史 的 丰碑 


诡 丁 解 牛 
NFS 协 议 的 解析 


20 世 纪 80 年 代 初 ， 一 家 神奇 的 公司 在 了 硅谷 诞生 了 ， 它 束 是 Sun 
Miicrosystems。 这 个 名 字 与 太阳 无 关 ， 而 是 源 目 互联 网 的 伊甸园 一 
Stanford University Network 的 首 字 母 。 在 不 到 30 年 的 时 间 里 ，SUN 公 
司 创造 了 无 数 传世 作品 。 其 中 ，Java、Solaris 和 基于 SPARC 的 服务 器 
至 今 还 闻名 企 逮 。 后 来 ， 人 们 总 结 SUN 公 司 竖 落 的 原因 时 ， 有 一 条 竟 
然 是 技术 过 剩 。 

Network File System (NFS) 协议 也 是 SUN 公 司 设计 的 。 顾 名 思 
义 ，NFS 束 是 网 络 上 的 文件 系统 。 它 的 应 用 场景 如 图 1 所 示 ，NFS 服 务 
需 提 供 了 /code 和 /document 两 个 共享 目 孙 ， 分 别 被 挂 载 到 多 人 台 客 户 端的 
本 地 目录 上 。 当 用 户 在 这 些 本 地 目录 读 写 文件 时 ， 实 际 是 不 知 不 觉 地 
在 NFS 服 务 右 上 该 写 。 


NFS 服 务 器 10.32.106.62 提 供 了 以 下 两 个 共享 : 


code 
/document 
2 | } | } 
| 面 二 几 忠 
NFS 客 户 机 A 挂 载 了 服务 器 上 的 两 个 共享 目录 : NFS 客 户 机 B 也 挂 载 了 这 两 个 共享 目录 : 
10.32.106.62:/code /tmp/code 10.32.106.62:/code /tmp/code 
10.32.106.62:/document /tmp/document 10.32.106.62:/document /tmpydocument 


图 1 


NFS 目 1984 年 面世 以 来 ， 已 经 流行 30 年 。 理 论 上 它 适 用 于 任何 操 
作 系 统 ， 不 过 因为 种 种 原因 ， 一 般 只 在 Linux/UNIX 环 境 中 存在 。 我 在 


很 多 数据 中 心 见 到 过 NFS 应 用 ， 其 中 不 乏 通 信 、 银 行 和 电视 台 等 大 型 
机 构 。 无 论 SUN 的 命运 如 何 多 媳 ，NFS 始 终 处 乱 不 惊 ， 这 么 多 年 来 只 
出 过 3 个 版 本 ， 即 1984 年 的 NFSv2、1995 年 的 NFSv3 和 2000 年 的 
NFSv4。 目 前 ， 大 多 数 NFS 环 境 都 还 是 NFSvV3， 本 文 介绍 的 也 是 这 个 版 
本 。NFSV2 还 在 极 少数 环境 中 运行 (我 只 在 日 本 见 到 过 ) ， 可 以 想象 
这 些 环境 有 多 老 了 。 而 NFSv4 因 为 深 受 CIFS 影 响 ， 实 施 过 程 相 对 复 
杂 ， 所 以 普及 速度 较 慢 。 

如 何 深入 学 习 NFS 协 议 呢 ?其 实 所 有 权威 资料 都 可 以 在 RFC 1813 
中 找到 ， 不 过 这 些 文档 读 起 来 就 像 面 对 一 张 冷冰冰 的 面孔 ， 令 人 望 而 
却步 。《 乌 哥 的 Linux 私 房 菜 》 中 对 NEFS 的 介绍 虽 称 得 上 友好 ， 但 美 中 
不 足 的 是 不 够 深入 ， 出 了 问题 也 不 知道 如 何 排查 。 我 曾经 为 此 颇 感 苗 
恼 ， 因 为 工作 中 位 到 的 NFS 问 题 太 多 了 ， 走 投 无 路 时 就 只 能 人 硬 嘴 RFC 
一 既然 网 络 协议 都 那么 复杂 ， 我 也 不 指望 有 捷径 了 。 直 到 有 一 天 偶然 
打开 挂 载 时 抓 的 包 ， 才 意识 到 Wireshark 可 以 改变 这 一 切 : 它 使 整个 挂 
载 过 程 一 目 了 然 ， 所 有 细 市 都 一 宽 无 遗 。 分 析 完 每 个 网 络 包 ， 再 回顾 
RFC 1813 便 完全 不 觉得 陌生 。 

如 果 你 对 NFS 有 兴趣 ， 不 妨 一 起 来 分 析 这 个 网 络 包 。 在 我 的 实验 
室 中 ，NFS 客 户 问 和 文件 服务 器 的 IP 分 别 是 10.32.106.159 和 
10.32.106.62。 我 在 运行 挂 载 命令 (mount) 时 抓 了 包 ， 然 后 用 
“portmap || mount || nfs” 进 行 过 滤 ( 见 图 2) 。 


[root@shifml tmp]# mount 10.32.106.62:/code /tmp/code 
es i i 


[Ee Edit View Go Capture Analyze Statistics Teephony Tools WSintemal Help 


EE 


| Filter: pormaplmoutlr [| Expression., Clear Apply 

INo Source Destination Time Protocol Info 
112 10,32.106.159 10,32 ,52 2013-07-15 14:21:18,768742 Portmap V2 GETPORT Cail (Reply In 113) NF5Q.00003) Vv: 
113 10. 32.106.62 10,. 32.106.159 2013-07-15 14:21:18,768742 Portmap V2 GETPORT Reply (call In 112) Port:2049 
123 10. 32.106.159 10,32.106.62 2013-07-15 14:21:18,768742 NFs V3 NULL Call (rReply In 124) 


124 10.32.106.62 10, 32.106.159 2013-07-15 14:21:18.772649 NFS V3 NULL Reply (call In 123) 
£28 10, 6.15: 0. 32.106. 62 9013 5 14:21:18.77264: ;or tma GETPORT Call {Reply II 9) 


上 蕊 视 I0 【 Li 15 a :21:1 72 MOUN MNT Re [Ca f 4) 
140 10.32.106,159 10,32.106.62 2013-07-15 14:21:18,772649 NFS NULL Call (Reply In 141) 


II 
~ ] 
站 二 人 ~ 
四 - 
之 4 
2 fa 
~ 
到 
出 


V 
141 10. 32.106, 5652 10,32.106.159 2013-07-15 14:21:18,772649 NFS V3 NULL Reply (Call In 140) 

143 10.32.106.159 10,32.106.62 2013-07-15 14:21:18.772649 NFS V3 FSIN 11 (reply In 144)，FH:OX2CC9bel8 
144 10.32.106.62 10,32.106.159 2013-07-15 14:21:18.772649 NFS V3 F5INFO y 

145 10. 32.106,159 10.32.106.62 2013-07-15 14:21:18.776555 NFS V3 FSINFO Call (Reply In 146)，FH:OX2CC9bel8 
146 10. 32.106. 62 10, 32.106.159 2013-07-15 14:21:18.776555 NFs V3 FSINFO Reply (call In 145) 


从 图 2 中 的 Info 一 栏 可 以 看 到 ，Wireshark 已 经 提供 了 详细 的 解析 。 
不 过 我 们 还 可 以 翻译 成 更 直 白 的 对 话 (为 了 方便 第 一 次 接触 NFS 的 读 
者 ， 我 还 作 了 一 些 注释 ) 。 

包 号 112 和 113 ( 见 图 3) : 


Urce 
112 10. 32.106.159 10.32.106.62 2013-07-15 portmapV2 GETPORT Call (Reply In 113) NFS(100003) 
113 10.32.106.62 10.32.106.159 2013-07-15 Portmap V2 GETPORT Reply (Call In 112) Port:2049 


图 3 


客户 端 :“ 我 想 连 接 你 的 NFS 进 程 ， 应 该 用 哪个 端口 呀 ? ” 
服务 器 :“ 我 的 NFS 端 口 是 2049。”(9 
包 号 123 和 124 ( 见 图 4) : 


No, Source Destination Time Protocol Info 
123 10.32.106.159 10.32.106.62 2013-07-15 NFs V3 NULL Call (Reply In 124) 
124 10.32.106.62 10,. 32.106.159 2013-07-15 NFS VY3 NULL Reply (call In 123) 


图 4 


客户 端 : “ 那 我 试 一 下 NFS 进 程 能 和 否 连 上 。” 
服务 器 :“ 收 到 了 ， 能 连 上 。” 人 2 
包 号 128 和 129 ( 见 图 5) : 


No. Source Destination Time Protocol Info 


客户 端 :“ 我 想 连接 你 的 mount 服 务 ， 应 该 用 哪个 端口 呀 ?>” 
服务 器 : “我 的 mount 的 端口 号 是 1234。”(G) 
包 号 132 和 133 ( 见 图 6) : 


No、 Source Destinastion Time Protocol Info 


客户 端 :“ 那 我 试 一 下 mount 进 程 能 否 连 上 。” 
服务 器 :“ 收 到 了 ， 能 连 上 。” 邮 
包 号 134 和 135 ( 见 图 7) : 


No Source Destination Time protocol Info 


135 10,32.105.52 10,32.106.159 2013-07-15 MOUNT V3 MNT Reply Call In 134) 
“| 


[日 Frame 135: 114 bytes on wire (912 bits), 114 bytes captured (912 bits) 
| 外 Ethernet II, Src: Clariion_2b:Sd:b2 (00:60:16:2b:5d:b2), Dst: Intel_d4:4d:e2 (00: 
| Internet Protocol, src: 10.32.106.62 (10.32.106.62), Dst: 10.32.106.159 (10. 32.10 
EB User Datagram Protoco|l, Src port: search-agent (1234), Dst Port:; corba-iiop-ssl ( 
BRemote Procedure Call, Type:Reply XID;Ox0d6c35b4 
[日 MounE service 

[Program Version: 3] 

[V3 Procedure: MNT (1)] 

status: OK (0) 
S fhandle 


lenoth: 32 
[Thash_ Cne-557 oxzccobers]] (CRC-32): Ox2cCc9bei8] 
图 7 


客户 端 :“ 我 要 挂 载 /code 共 享 日 录 。” 

服务 器 : “你 的 请 求 被 批准 了 。 以 后 请 用 file handle 0x2cc9be18 来 
访问 本 目录 。”3 

包 号 140 和 141 〈 见 图 8) : 


No, Source Destination Time Protocol ]nfo 
140 10, 32.106.159 10,32.106.62 2013-07-15 NFS V3 NULL Call (rReply In 141) 
141 10, 32,106.62 10,32.106.159 2013-07-15 NFS V3 NULL Reply (call In 140) 


图 8 


客户 端 : “我 试 一 下 NFS 进 程 能 否 连 上 。” 
服务 器 : “ 收 到 了 ， 能 连 上 。”(9) 
包 号 143 和 144 ( 见 图 9) : 


No. Source Destination Time Protocol Info 
143 10.32.106.159 10. 32.106.62 2013-07-15 NFS V3 FSINFO Call (Reply In 144), FH:Ox2cc9bel8 
144 10.32.106.62 10.32.106.159 2013-07-15 NFS V3 FSINFO Reply (Call In 143) 


图 9 


客户 端 : “我 想 看 看 这 个 文件 系统 的 属性 。” 
服务 器 : “给 ， 都 在 这 里 。” 人 ) 
包 号 145 和 146 ( 见 图 10) 


No, Source Destination Time Protocol Info 


145 10. 32.106.159 10.32.106.62 2013-07-15 NFs V3 FsINFO Call (Reply In 146), FH:Ox2cc9belg 
146 10. 32.106.62 10.32.106.159 2013-07-15 NFS V3 FSINFO Reply (Call In 145) 


图 10 


客户 端 : “我 想 看 看 这 个 文件 系统 的 属性 。” 


服务 器 :“ 给 ， 都 在 这 里 。”(8 

以 上 便 是 NFS 挂 载 的 全 过 程 。 细 万 之 处 很 多 ， 所 以 在 没有 
Wireshark 的 情况 下 很 难 排 错 ， 经 常 不 得 不 盲目 地 检查 每 一 个 环节 ， 比 
如 先 用 rpcinfo 命 令 获得 服务 器 上 的 端口 列表 〈 见 图 11) ， 再 用 Telnet 命 
令 逐 个 试探 〈 见 图 12) 。 即 使 这 样 也 只 能 检查 几 个 关键 进程 能 否 连 
上 上， 排查 范围 非常 有 限 。 


[ 凶 rootWshifml:~ | El 


[zcoteshifEm31 - 
4100003 


]# rpcinfo -p 10.32.106.62 |egrep "portmapperimountdlnfa" 
2 udp 2049 nfs 

100003 3 ucp 2049 nrs 

100003 2 tcp 2049 nfs 

100003 3 top 20493 nfs 

3000D5 3 七 CR 1234 mountd 

100005 2 top 1234 mountd 


100005 top 1234 mountd Ee 


100005 3 ucp 1234 mountd EE 
400005 2 udp 1234 mountd 站 
1000D5 1 Docp 1234 mounto 面 
400000 2 udp 111 portmapper 
4000D00 2 top 111 portmapper 

[root@shifm1i ~]# 


图 11 


[root@shifm1 tmp]# telnet 16.32.166.62 2849 
[root@shifm1l tmp]# telnet 16.32.166.62 1234 
[root@shifm1l tmp]# telnet 16.32.166.62 111 


图 12 


用 上 Wireshark 之 后 就 可 以 很 有 针对 性 地 排查 了 。 例 如 ， 看 到 
portmap 请 求 没有 得 到 回复 ， 就 可 以 考虑 防火 墙 对 111 端 口 的 拦截 ;， 如 
果 发 现 mount 请 求 被 服务 器 拒绝 了 ， 就 应 该 检查 该 共享 目录 的 访问 欣 
制 。 


既然 说 到 访问 控制 ， 我 们 就 来 看 看 NFS 在 安全 方面 的 机 制 ， 包 括 
对 客户 端的 访问 控制 和 对 用 户 的 权限 控制 。 

NFS 对 客户 端的 访问 控制 是 通过 IP 地 址 实现 的 。 创 建 共 享 目录 时 
可 以 指定 哪些 IP 人 允许 读 写 ， 哪 些 IP 只 允许 读 ， 还 有 哪些 IP 连 挂 载 都 不 
人 允许。 虽然 配置 不 难 ， 但 这 方面 出 的 问题 往往 很 "诡异 ”， 没 有 
Wireshark 古 几乎 无 法 排查 的 。 比 如 ， 我 磁 到 过 一 台 客 户 端 的 也 明明 已 


经 加 到 人 允许 读 写 的 列表 里 ， 结 果 却 只 能 读 。 这 个 问题 难 住 了 很 多 工程 
师 ， 因 为 在 客户 端 和 服务 器 上 都 找 不 到 原因 。 后 来 我 们 在 服务 锅 上 抓 
了 个 包 ， 才 知道 在 收 到 的 包 里 ， 客 户 端 的 卫 已 经 被 NAT 设 备 转 换 成 别 
时 了 。 

NFS 的 用 户 权 限 也 经 党 让 人 困惑 。 比 如 在 我 的 实验 室 中 ， 客 户 端 
A 上 的 用 户 admin 在 /code 目 录 里 新 建 一 个 文件 ， 该 文件 的 owner 正 常 显 
示 为 admin。 但 是 在 客户 端 B 上 查看 该 文件 时 ，owner 却 变 成 nasadmin， 
过 程 如 下 所 示 。 

客户 端 A ( 见 图 13) 


[admin@shifm1 /tmp]$ cp abc.txt code/abc.txt 
[admin@shifm1 /tmp]$ 1s -1 code/abc.txt 
-rw-r--r-- 1 admin adm 491292 Jul 28 2613 code/abc.txt 


图 13 


客户 端 B ( 见 图 14) 
[root@shifm2 /tmp]# ls -1 code/abc.txt 


-rw-r--r-- 1 nasadmin adm 491292 Jul 28 2613 code/abc.txt 


图 14 


这 是 为 什么 呢 ? 借助 Wireshark， 我 们 很 容易 就 能 看 到 原因 。 图 15 
显示 了 用 户 admin 在 创 建 /tmp/code/abc.txt 时 的 包 。 


No. Source Des on Time Protecol Info 
4 10.32.106.159 证 二 106.62 2013-07-28 NF5 V3 CREATE Call (Reply In 6€), DH: Ox2cc9belgd/abc, txt 
5 10. 32. 106.， 52 10. 32. 106.159 2013-07-28 TCP nfs > 708 [Ack] Seq=121 Ack=281 Win=49152 Len=0 TSVE 
加 加 JE 一 mm 


Frame 4: 222 bytes on wire (1/76 bits), 222 ps captured i ?6 i 
4:4 d d:e2 


d4:4d:e2 (D0:04:23:d4 rets b:5d:b2 (00:60:16:2b:5d:b2 
9 Internet Protoco] Version 4， 10. 32.106. | (10. 32.106. ee ee 10.32.106. 62 (10.32.106. 62) 
a Transmission Control i Src Port: 708 (708), Dst Port: nfs (2049), Seq: 125, Ack: 121, Len: 156 
3 Remote Procedure Call, 二 和 XID:;Oxd839591c 

田 Fragmenc header: Last fragment, 152 bytes 

XID: Oxd839591cC (3527637020) 

Message Type: Call (0) 

RPC Version: 2 

program: NFS (100003) 

Program Version: 3 

Procedure: CREATE (8) 


[The reply to this reguest is in frame 6] 
日 Credentials 
Flavor: AUTH_UNIX C1) 
La hh: 


Stamp: 0x00904baf 
cdine Name: shifmi 
GD: 


图 15 


由 图 15 中 的 Credentials 信 息 可 知 ， 用 户 在 创建 文件 时 并 没有 使 用 
admin 这 个 用 户 名 ， 而 是 用 了 admin 的 UID 501 来 代表 自己 的 身份 (用户 
名 与 UID 的 对 应 关系 是 由 客户 端的 /etc/passwd 决 定 的 ) 。 也 就 是 说 NFS 
协议 是 只 认 UID 不 认 用 户 名 的 。 当 admin 通 过 客户 端 A 创 建 了 一 个 文 
件 ， 其 UID 501 束 会 被 写 到 文件 里 ， 成 为 owner 信 息 。 

而 当 客户 端 B 上 的 用 户 查 看 该 文件 属性 时 ， 看 到 的 其 实 也 是 “UID: 
501”。 但 是 因 为 客户 端 B 上 的 /etwpasswd 文 件 和 客户 端 A 上 的 不 一 样 ， 
其 UID 501 对 应 的 用 户 名 叫 nasadmin ， 所 以 文件 的 owner 就 显示 为 
nasadmin 了 。 同 样 道 理 ， 当 客户 端 B 上 的 用 户 nasadmin 在 共享 目 孙 上 新 
建 一 个 文件 时 ， 客 户 端 A 上 的 用 户 看 到 的 文件 owner 残 会 变 成 admin。 
为 了 防止 这 类 问题 ， 建 议 用 户 名 和 UID 的 关系 在 每 台 客 户 端 上 都 保持 
一 致 。 

弄 清 楚 了 NEFS 的 安全 机 制 后， 我 们 再 来 看 看 读 写 过 程 。 经 验 丰 富 
的 工程 师 都 知道 ， 性 能 调 优 是 最 有 拉 术 舍 量 的 。 借 助 Wireshark， 我 们 
可 以 看 到 NFS 究 竟 是 如 何 读 写 文 件 的 ， 这 样 才能 理解 不 同 mount 参 数 的 
作用 ， 也 才能 有 和 针对 性 地 进行 性 能 调 优 。 图 16 展 示 了 读 取 文件 abc.txt 
的 过 程 。 

[root@shifml tmp]# cat /tmp/code/abc.txt 


Fiker: nfs 


INo, Source Destination Time nh o 
2 10.32.106.159 10.32.106,62 2013-07-22 NFS V3 ACCESS Call (Reply In 3), FH: Ox2cc9be18, [Check: RD LU MD xT DL] 
310.32.106.62 10.32.106.159 2013-07-22 NFS V3 ACCESS Reply (Call In 2), [Allowed: RD LU MD xT DL] 
5 10.32.106.159 10.32.106,62 2013-07-22 NFS V3 READDIRPLUS Call [Rep1y In 6), FH: Ox2cc9gbeis 
510.32.106.62 10.32.106,159 2013-07-22 NFS V3 READDIRPLUS Reply (Call In 5) , .. lost+found ,ecc abc,txt 
$8 10.32.106.159 10.32.106, 62 2013-07-22 NFS V3 GETATTR Cal] (Reply In 9), FH; Ox 3 0 
910.32.106.62 10.32.106.159 2013-07-22 NFS V3 GETATTR Reply (Call In 8) Regular Fil - uid: 0 gid: 0 
11 10.32.106.159 10.32.106,. 62 2013-07-22 NFS V3 ACCESS Call (Reply In 12), FH: Ox S31352e1, A RD MD XT XE] 
12 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 ACCESS Reply Call In 11), [A1llower MD XT XE] 
13 10.32.106.159 10.32.106.62 2013-07-22 NFS5 V3 READ Call (Reply In 292), FH: offser: 0 LenNn: 13107. 
14 10.32.106.159 10.32.106,62 2013-07-22 NFS V3 READ Call (Reply In 152), FH: Ox531352e1 offsert: 131072 Len: ee 
152 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 READ Reply (Call In 14) 上 
292 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 READ Reply (Call In 13) a 131072 
294 10.32.106.159 10.32.106,62 2013-07-22 NFS V3 READ Call (Reply In 446), 上 Ox531352el Offset: 262144 Len: 131072 
295 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 READ Call (Reply In 548), FH: OXx531352el1 Offset: 393216 Len: 98076 
a es 32.106.62 10.32.106.159 2013-07-22 NFS V3 READ Reply (call In 294) 中 a 
.32.106.62 10.32.106.159 2013-07-22 NFS V3 READ Reply (Call In 295) Le 


图 16 


是 -| Expression.. Cleat Apply Save 


包 号 2 和 3 ( 见 图 17) 


Source Destination Time Protocol Inf 
2 10.32.105.159 10.32.106.62 2013-07-22 NFS V3 ACCESS Call (Reply In 3), FH: 0x2cc9be18，[Check: RD 
3 10.32.105.62 10.32.106.159 2013-07-22 NFS V3 ACCESS Reply (call In 2), [Allowed: RD LU MD XT DL] 


图 17 


客户 端 : “我 可 以 进入 0x2cc9be18 (也 就 是 /code 的 file handle ) 
iE Ya 

服务 器 : “你 的 请 求 被 接受 了 ， 进 来 吧 。” 

包 号 5 和 6 ( 见 图 18) 


No, ”Source Destination Time Protocol Info 
5 10.32,106,159 10.32.106.62 2013-07-22 NFS V3 READDIRPLUS Call (Reply In 6), FH: Ox2cc9belB 
6 10.32,106,62 10.32.106.159 2013-07-22 NFS V3 READDIRPLUS Reply (Call In 5) , ,. lost+found .etc abc.txt 


图 18 


客户 端 : “我 想 看 看 这 个 目 0 handle 。” 
服务 器 : “文件 名 及 file handle 的 信息 在 这 里 。 其 中 abc.txt 的 file 
handle 是 0x531352el1 。”(3 
包 号 8 和 9 ( 见 图 19) 


No Source Destinaton Time Protocol Info 
8 10.32.106.159 10. 32.106.62 2013-07-22 NFS V3 GETATTR Call (Reply In 9), FH: 0x531352el 
9 10.37.106.67 10.37.106.159 2013-07-77 NES V3 GFTATTR Reply (Call Tn 8) Regular File mnde: 


图 19 


客户 端 : “0x531352el (也 就 是 abc.txt) 的 文件 属性 是 什么 ?“ 
服务 器 :“ 权 限 、uid、gid, 文件 大 小 等 信息 都 给 你 。” 包 号 11 和 12 
( 见 图 20) 


。 OUITCE jestination Ime n o 
11 10.32.106.159 10. 32.106.62 2013-07-22 NFS V3 ACCESS Call (Reply In 12), FH: Ox531352e1l, [Check 
12 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 ACCESS Reply (Call In 11), [Allowed: RD MD XT XE] 


图 20 


客户 端 : “我 可 以 打开 0x531352el 0 txt) 吗 ? ” 
服务 器 : “你 的 请 求 被 允许 了 。 你 有 读 、 写 、 执 行 等 权限 。” 包 号 
13、14、152、292 ( 见 图 21) 


No, Source Destination Time Protocol 
13 10.32.106.159 10.32.106.62 2013-07-22 NFS ee READ Call (Reply In 292), FH: Ox531352el offse 131 
14 10.32.106.159 10,32.106,62 2013-07-22 NFS V3 READ Call ely In 152), FH: Ox531352el re 了 en i 2 
152 10.32.106.62 10,32.106.159 2013-07-22 NFS V3 READ Reply (Call In 14) Len; 131072 
292 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 READ Reply (Ca -一 In 13) Len: 131072 


图 21 


客户 端 : “从 0x531352el 的 偏 移 量 为 0 处 ( 即 从 abc.txt 的 开头 位 
置 ) 读 131072 字 节 。，” 


客户 端 : “从 0x531352el 的 偏 移 量 为 131072 处 〈 即 接着 上 一 个 请 求 
读 完 的 位 置 ) 再 读 131072 字 有 。” 

服务 器 : “给 你 131072 字 节 。” 

服务 器 :“ 再 给 你 131072 字 节 。” 

(继续 读 ， 直 到 读 完 整个 文件 。) 

就 这 样 ，NFS 完 成 了 文件 的 读 取 过 程 。 从 最 后 几 个 包 可 见 ，Linux 
客户 端 读 NFS 共 享 文件 时 是 多 个 READ Call 连 续 发 出 去 的 (本 例 中 是 连 
续 两 个 ) 。 这 个 方式 跟 Windows XP 读 CIFS 共 享 文件 有 所 不 同 。 
Windows XP 不 会 连续 发 READ Call， 而 是 先 发 一 个 Call， 等 收 到 Reply 
后 再 发 下 一 个 。 相 比 之 下 ，Linux 这 种 读 方 式 比 Windows XP 更 高 效 ， 
尤其 是 在 高 带宽 、 高 延迟 的 环境 下 。 这 就 像 叫 外 卖 一 样 ， 如 果 你 今 晚 
想 吃 鸡翅 、 汉 堡 和 可 乐 三 样 食物 ， 那 合理 的 方式 应 该 是 打 一 通电 话 把 
三 样 都 叫 齐 了 。 而 不 是 先 叫 鸡 怒 ， 等 鸡翅 送 到 了 再 叫 汉 堡 ， 等 汉堡 送 
到 后 再 叫 可 乐 。 除 了 读 文件 的 方式 ， 每 个 READ Call 请 求 多 少数 据 也 
会 影响 性 能 。 这 台 Linux 默 认 每 次 读 131072 字 节 ， 我 的 实验 室 里 还 有 默 
认 每 次 读 32768 字 节 的 客户 端 。 在 高 性 能 环境 中 ， 要 手动 指定 一 个 比较 
大 的 值 。 比 如 在 我 的 Isilon 实 验 室 中 ， 常 常 要 调 到 512KB。 这 个 值 可 以 
在 mount 时 通过 rsize 参 数 来 定义 ， 比 如 “mount -o rsize=524288 
10.32.106.62:/code /tmp/code” ° 

分 析 完 读 操 作 ， 接 下 来 我 们 再 看 看 写 文 件 的 过 程 。 把 一 个 名 为 
abc.txt 的 文件 写 到 NFS 共 享 的 过 程 如 下 ( 见 图 22) 。 


[root@Oshifm1tmp]# cp abc.txt code/abc.txt 


Filter 1 


二 3 | Expression.. Clear Apply Save 
lo, Source Destination Time Protocol jnfo 

1 10- 32-106-159 10. 32-106- 62 2013-07-22 NFS VY] ACCESS Call (Reply In 2), Fll: Ox2ccgbel8, [Check: RD LU WD XT DL] 

2 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 ACCESS Reply (Call In 1), [Allowed: RD LU MD XT DL] 

4 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 LOOKUP Call (Reply In 5), DH:; Ox2cc9bel8/abc.txt 

5 10.32.106.62 10.32.106.159 2013-07-22 NFS v3 LOOKUP Reply (Call In 4) Error: NFS3ERR_NOENT 

6 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 CREATE Call (Reply In 7), pH: Ox2cc9be18/abc. txt Mode; UNCHECKED 

7 10. 32.106.62 10.32.106.159 2013-07-22 NFS V3 CREATE Reply (Call In 6) 

69 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 WRITE Cal1 (Reply In 104), FH: Ox531352el Offset: 0 Len: 131072 UNSTABLE 
104 10. 32.106.62 10.32.106.159 2013-07-22 NFS V3 WRITE Reply (Call In 69) Len: 131072 UNSTABLE 
130 10. 32.106.159 10.32.106.62 2013-07-22 NFS V3 WRITE Call (Reply In 302), FH: Ox531352el Offset:; 131072 Len; 131072 UNSTABLE 
190 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 WRITE Call (Reply In 303), FH: Ox531352el Offset: 262144 Len: 131072 UNSTABLE 
251 10. 32.106.159 10.32.106.62 2013-07-22 NF5 V3 WRITE Call (Reply In 305), FH; Ox531352el offser: 393216 Len; 98076 UN5TABLE 
302 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 WRITE Reply (Call In 130) Len; 131072 UNSTABLE 
303 10- 32-106-62 10.32.106.159 2013-07-22 NFS Vi WRITE Reply (Call In 190) Len: 131072 UNSTABLE 
305 10.32.106.62 10.32.106.159 2013-07-22 NF5 V3 WRITE Reply (Call In 251) Len: 98076 UNSTABLE 
305 10. 32.106.159 10.32.106.62 2013-07-22 NFS V3 COMMIT Call (Reply In 307), FH; Ox531352el 
307 10.32-.106.62 10.32.106.159 2013-07-22 NFS V3 COMNIT Reply (Call In 306 
305 10. 32,105.159 10. 32.106.62 2013-07-22 NFS V3 GETATTR Call (reply In 309), FH: Ox531352e1 
309 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 GETATTR Reply (Call In 306] Regular File mode; 0544 uid; 0 gid; 0 


图 22 


包 号 1 和 2 ( 见 图 23) 


No. 


Source Destinat Time | 
1 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 ACCESS Call (Reply In 2), FH: Ox2cc9be1g, [Check: RD 
2 10.32.106.62 10.32.106.159 2013-07-22 NF5 V3 ACCESS Reply (Call In 1), [Allowed; RD LU MD xT DL] 


图 23 


客户 端 : “我 可 以 进入 0x2cc9be18 ( 即 /code 目 录 ) 吗 ? 
“你 的 请 求 被 接受 了 ， 进 来 吧 。” 
包 号 4 和 5 ( 见 图 24) 


No. Source Destination Time Protocol Inio 
4 10.32.106.159 10.32.106.62 2013 07 22 NFSs V3 LODKUP Call (neply In 5), DH: Ox2cc9bc18/abc. txt 
5 10.32.106.62 10.32.106.159 2013-07-22 NF5 V3 LODKUP Reply (Call In 4) Error: NFS3ERR_NOENT 


图 24 


客户 端 : “请 问 这 里 有 叫 abc.txt 的 文件 么 ?” 
服务 器 :“ 没 有 。”(10 
包 号 6 和 7 ( 见 图 25) 


No, Source Time Protocol lnfo 
6 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 CREATE Call (Reply In 7), DH: 0x2cc9gbe18/abc.txt 
7 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 CREATE Reply (Call In 6] 


图 25 


客户 端 : “ 那 我 想 创 建 一 个 叫 abc.txt 的 文件 。” 
服务 器 :“ 没 问题 ， 这 个 文件 的 fle handle 是 0x531352e1。” 
包 号 64、104、130、190 ( 见 图 26) 


lo， ”Source Destination Time Protocol Info 
59 10. 32,106.159 10,32,106.,62 2013-07-22 NF5 V3 werITE Call (Reply In 104), FH: 0x531352e1 offset: 0 Len: 131072 UNSTABLE 
104 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 WRITE Reply (call In 69) Len: 131072 UNSTABLE 
130 10- 32.106-159 10.32.106.62 2013-07-22 NFS V3 WRITE Call {Reply In 302), FH: 0x531352el Offset: 131072 Len: 131072 UNSTABLE 
190 10.32.106.159 10.32,106.52 2013-07-22 NF5 V3 WRITE Call (Reply In 303), FH; 0x531352el offset; 262144 Len; 131072 UNSTABLE 


图 26 


”服务 


客户 端 : “从 0x531352el1 的 偏 移 量 为 0 处 ( 即 abc.txt 的 文件 开头 ) 
写 131072 字 节 。” 


服务 器 : “第 一 个 131072 字 下 写 好 了 。” 


客户 端 : “从 0x531352el 的 偏 移 量 为 131072 处 〈 即 接着 上 一 个 写 完 
的 位 置 ) 再 写 131072 字 节 。” 


客户 端 : “从 0x531352el 的 偏 移 量 为 262144 处 ( 即 接着 上 一 个 写 完 
的 位 置 ) 再 写 131072 字 节 。” 


(继续 写 ， 直 到 写 完整 个 文件 。) 
包 号 306 和 307 ( 见 图 27) : 


No. Source Destination e 
306 10. 32.106.159 10.32.106.62 2013-07-22 NFS V3 COMMIT Call (Reply In 307), FH: Ox531352el 
307 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 COMMIT Reply (Call In 306) 


图 27 


客户 端 : “我 刚才 往 0x531352el 〈 也 就 是 abc.txt) 写 的 数据 都 存盘 
了 胎 ? >” 

服务 器 : “都 存 好 了 。” 人 ) 

包 号 308 和 309 ( 见 图 28) : 


No. Source Destination Time Protocol Info 
308 10.32.106.159 10.32,106.62 2013-07-22 NFS V3 GETATTR Call (Reply In 309), FH: Ox531352el 
309 10.32.106.62 10.32,106.159 2013-07-22 NFS V3 GETATTR Reply (Call In 308) Regular File mode 


图 28 


客户 端 : “ 那 我 看 看 0x531352el 〈 也 就 是 abc.txt) 的 文件 属性 。” 

服务 器 : “文件 的 权限 、uid、gid、 文 件 大 小 等 信息 都 给 你 。” 

这 个 例子 的 写 操作 也 是 多 个 WRITE Call 连 续 发 出 去 的 ， 这 是 因为 
我 们 在 挂 载 时 没有 指定 任何 参数 ， 所 以 使 用 了 默认 的 async 写 方式 。 和 
async 相 对 应 的 是 sync 方 式 。 假 如 mount 时 使 用 了 sync 参 数 ( 见 图 29) 
客户 端 会 先 发 送 一 个 WRITE Call， 等 收 到 Reply 后 再 发 下 一 个 Call， 也 
就 是 说 WRITE Call 和 WRITE Reply 是 交替 出 现 的 。 除 此 之 外 ， 还 有 什 
么 办 法 在 包 里 看 出 一 个 写 操作 是 async 还 是 sync 呢 ? 答案 就 是 每 个 
WRITE Call 上 的 “UNSTABLE” 和 “FILE_SYNC” 标 志 ， 前 者 表示 
async， 后 者 表示 sync。 图 30 显 示 了 用 sync 参 数 后 的 网 络 包 。 


[root@shifm1 tmp]# mount -o sync 16.32.166.62:/code /tmp/code 
[root@shifm1 tmp]# cp abc.txt /tmp/code/abc.txt 


图 29 


ml ) xpression., ao :pr sme 
No Source Destination Time Protocol io 

1 10,32.106,159 10.32.106.62 2013-07-23 NF5 V3 ACE55 Call (Reply In 2), FH: Ox2Cc9be18, [check: RD LU MD XT DL] 
2 10.32.106,62 10.32.106,159 2013-07-23 NFS V3 ACCESS Reply (Call In 1 [Allowed; RD LU MD xT DL] 


5 10,32.106,62 10.32,106.159 2013-07-23 NFS V3 LOOKUP Reply (Ca In 4) Error: NFS3ERR_NOENT 
6 10.32.106.159 10.32.106.62 2013-07-23 NFS V3 CREATE Cal1 (Reply In 7), DH: Ox2ccgbel8/abc.txt Mode: UNCHECKED 
7 10,32.106.62 10.32z.106.159 2013-07-23 NF5 V3 CREATE Reply (call In 6) 
69 10.32.106,159 10.32.106.62 NFS V3 WRITE Call (Reply In 85), FH; Ox4fdabl2d Offset; 0 Len; 131072 FILE_SYNC 
85 10.32.106.62 10.32.106.159 2013-07-23 NFS V3 WRITE Reply (Call In 69) Len: 131072 FILE_SY| 
了 避 人 周 . 7 已 NFS V3 WRITE Call (Reply In 166), FH: Ox4fdabl2d Offset: 131072 Len: 131072 FILE_SYNC 
166 10.32.106.62 10.32-106.159 2013-07-23 NFs V3 WRITE Reply (call zn 137) Len: 131072 FILE_SYNC 
9 10,32.106,159 10.32.106.62 2013-07-23 NFS V3 WRITE Cal] (Reply In 245), FH: Ox4fdabi2d offser: 262144 LeNn: 131072 FILE_SYNC 
NI 
NI 
Ml 
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245 10, 32,106, 62 10.32.106.159 2013-07-23 5 3 WRITE Reply (Ca n 209) Len; 131072 FILE_SYNC 
270 10. 32.106,159 10.32.106.62 2013-07-23 FS V3 WRITE Call (Reply In 305), FH: Ox4fdabl2d Offset: 393216 Len: 98076 FILE_SYNC 
5 v 


305 10.32.106.62 10.32-.106-159 2013-07-23 RITE Reply (Call In 270) Len: 98076 FILE_SYNC 


图 30 


从 图 30 中 不 仅 可 以 看 到 FILE_SYNC 标 志 ， 还 可 以 看 到 WRITE Call 
和 WRITE Reply 是 交 蔡 出 现 的 (也 就 是 说 没有 连续 的 Call) 。 不 难 想 
象 ， 每 个 WRITE Call 写 多 少数 据 也 是 影响 写 性 能 的 重要 因素 ， 我 们 可 
以 在 mount 时 用 wsize 参 数 来 指定 每 次 应 该 写 多 少 。 不 过 在 有 些 客户 端 
上 启用 sync 参数 之 后 ， 无 论 wsize 定 义 成 多 少 都 会 被 强制 为 4KB， 从 而 
导致 写 性 能 非常 差 。 那 为 什么 还 有 人 用 sync 方 式 呢 ? 答案 是 有 些 特殊 
的 应 用 要 求 服务 器 收 到 sync 的 写 请 求 之 后 ， 一 定 要 等 到 存盘 才能 回复 
WRITE Reply，sync 操 作 正 符合 了 这 个 需求 。 由 此 我 们 也 可 以 推出 
COMMIT 对 于 sync 写 操作 是 没有 必要 的 。 

非常 值得 一 提 的 是 ， 经 常 有 人 在 mount 时 使 用 noac 参 数 ， 然 后 发 现 
读 写 性 能 都 有 问题 。 而 根据 RFC 的 说 明 ，noac 只 是 让 客户 端 不 缓存 文 
件 属性 而 已 ， 为 什么 会 影响 性 能 呢 ? 光 看 文档 也 许 永 远 发 现 不 了 原 
因 。 抓 个 包 吧 ，Wireshark 会 告诉 我 们 答案 。 

先 看 写 文 件 的 情况 ( 见 图 31) 


[root@shifm1 tmp]# mount -o noac 16.32.166.62:/code /tmp/code 
[root@shifm1 tmp]# cp abc.txt /tmp/code/abc.txt 


图 31 

在 图 32 中 ， 从 Write Call 里 的 FILE_SYNC 可 以 知道 ， 虽 然 在 mount 
时 并 没有 指定 sync 参 数 ， 但 是 noac 把 写 操作 强制 变 成 sync 方 式 了 ， 人 性 
能 目 然 也 会 下 降 。 


Fe oo oo rs 
Ne、 Source Destination Time Protocol Info 
1 10.32.106.159 10.32.106.62 2013-07-22 NF5 V3 GETATTR Call (Reply In 2), FH: Ox2cc9belB 
210.32.106.62 ”10- 32-106.159 2013-07-22 NF5 V3 GETATTR Reply (Cal1 In 1) Directory mode: 0755 uid: 0 gid: 0 
4 10,32.106.159 10.32.106,62 2013-07-22 NF5 V3 ACCE55 Call (Reply In 5), FH: Ox2cc9be18, [check: RD LU MD xT pL] 
5 10.32.106,62 10.32.106.159 2013-07-22 NFS5 V3 ACCESS Reply (Call In 4), [Allowed; RD LU MD xT DL] 
6 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 READOIRPLUS Call (Reply In 7), FH: Ox2cc9bel8 
7 10- 32-106. 62 10.32.106.159 2013-07-22 NF5 V3 READOIRPLUS Reply (Call In 6) . .. lost+found -etc 
3 10.32.106,159 10.32.106,62 2013-07-22 NF5 V3 ACCES55 Call (Reply In 10), FH: Ox2cc9be18, [check; RD LU MD xT DL] 
10 10. 32.106, 52 10.32.106.159 2013-07-22 NFS5 V3 ACCESs Reply (call In 9), [Allowed; RD LU MD xT DL] 
12 10. 32.106,159 10.32.106.62 2013-07-22 NFS V3 LOOKUP Cal1 (Reply In 13), DH: 0x2cc9bel8/abc.txt 
13 10.32.106.62 10.32.106.159 2013-07-22 NF5 V3 LOOKUP Reply (Call In 12) Error: NFS3ERR_NOENT 
14 10.32.106,159 10.32.106,62 2013-07-22 NF5 V3 CREATE Call (Reply In 15), oH: Ox2cc9bel8/abc. txXt Mode; UNCHECKED 
15 10.32.106,62 10.32.106.159 2013-07-22 NF5 V3 CREATE Reply (Call In 14) 
16 10. 32.106,159 10.32.106.62 2013-07-22 NFS V3 GETATTR Call (Reply In 17), FH: Ox8963b2bf 
17 10.32.106.62 10-32.106.159 2013-07-22 NFS V3 GETATTR Reply (Call In 16) Regular File made: 0644 uid: 0 gid: 0 
79 10. 32.106,159 10.32.106,62 2013-07-22 NF5 V3 WRITE Call (reply In 95)，FH; Ox8963b2bf offset: © Len: 131072 FILE_SYNC 
95 10.32.106,62 10.32.106.159 2013-07-22 NFS5S V3 WRITE Reply (Call In 79) Len; 131072 FILE_SYNC 
147 10. 32.106.159 10.32.106.62 2013-07-22 NFS V3 WRITE Call {Reply In 175), FH: Ox8963b2bf Offset: 131072 Len: 131072 FILE_SYNC 
175 10. 32-106. 52 ”10- 32-106.159 2013-07-22 NFS V3 WRITE Reply (Call In 147) Len: 131072 FILE_SYNC 
zl15 10. 32.106.159 10.32.106.62 2013-07-22 NF5 V3 WRITE Cal] (Reply In 254), FH: 0OX8953bzbf offser: 262144 Len: 131072 FILE_5YNC 
254 10.32.106,62 10.32.106.159 2013-07-22 NFS V3 WRITE Reply (Call In 218) Len; 131072 FILE_SYNC 
314 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 GETATTR Call (Reply In 315), FH: OxB963b2bf 
315 10-32.106.62 10-32.106.159 2013-07-22 NFS V3 GETATTR Reply (Call In 314) Regular File mode: 0644 uid: 0 gid: 0 


图 32 


再 看 读 文 件 时 的 情况 〈 见 图 33) : 
[root@shifm1l tmp]# mount -o noac 10.32.106.62:/code /tmp/code 


[root@shifm1 tmp]# cat /tmp/code/abc.txt 


图 33 


INo， Source Destination Time Protocol Info 
1 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 ACCESS Call (Reply In 2), FH: Ox2cc9be18, [Check: RD LU MD xT DL] 
210.32.106.62 10.32.106.159 2013-07-22 NFs V3 ACCESS Reply (Call In 1), [Allowed: RD LU MD xT DL] 
4 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 GETATTR Call (Reply In 5), FH: Oxbfcazf36 
510.32.106.62 10.32.106.159 2013-07-22 NFS V3 GETATTR Reply (Call In 4) Regular File mode: 0644 uid: 0 gid: 0 
6 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 ACCESS Call (Reply In 7), FH: Oxbfca2f36, [check: RD MD xT XE] 
7 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 ACCESS Reply (Call In 6), [Allowed: RD MD xT xE] 
8 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 GETATTR Call (Reply In 9), FH: Oxbfca2f36 
910.32.106.62 10.32.106.159 2013-07-22 NFS V3 GETATTR Reply [Call In 8) Regular File mode: 0644 uid: 0 gid: 0 
10 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 READ Cal] CReply In 152), FH: Oxbfca2f36 Offset: 0 Len: 131072 
11 10.32.106.159 10. 32.106.62 2013-07-22 NFS V3 READ Call (Reply In 293), FH: Oxbfca2f36 offser: 131072 Len: 131072 
152 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 READ Reply (call In 10) Len: 131072 
293 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 READ Reply (Call In 11) Len; 131072 
295 10.32.106.159 10.32.106.62 2013-07-22 NFS YW3 GETATTR Call (Reply In 296), FH: Oxbfca2f36 
296 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 GETATTR Reply (Call In 295) Regular File mode: 0644 uid: 0 gid: 0 
297 10.32.105,.159 10.32.106.62 2013-07-22 NFS V3 READ Cal] (Reply In 540), FH: 0Oxbfcazf36 Offset: 252144 Len: 131072 
298 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 READ Ca]l] (Reply In 400), FH: Oxbfca2f36 offser: 393216 Len: 98076 
400 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 READ Reply (Call In 298) Len; 98076 
540 10.32.106.62 10.32.106.159 2013-07-22 NFSs V3 READ Reply (Call In 297) Len: 131072 
541 10.32-106-159 10.32.106.62 2013-07-22 NFS V3 GETATTR Call (Reply In 542), FH: Oxbfca2f36 
542 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 GETATTR Reply (Call In 541) Regular File mode: 0644 uid: 0 gid: 0 
543 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 GETATTR Call (Reply In 544), FH: Oxbfca2f36 
544 10.32.106.62 10.32.106.159 2013-07-22 NFS V3 GETATTR Reply (Call In 543) Regular File mode: 0644 uid: 0 gid: 0 
545 10.32.106.159 10.32.106.62 2013-07-22 NFS V3 GETATTR Call (Reply In 546)，FH; Oxbfca2f36 
546 10.32.106.62 10-32-106-159 2013-07-22 NFS V3 GETATTR Reply (Call In 545) Regular File mode: 0644 uid: 0 gid: 0 


从 图 33 中 可 以 看 到 ， 在 读 文 件 过 程 中 ， 客 户 
GETATTR 查 询 文 件 属性 ， 所 以 读 性 能 


受到 了 影响 ， 在 高 延迟 


端 频 楷 地 通过 
的 网 络 


中 影响 尤为 明显 。 

纵 观 全 文 ， 我 们 分 析 了 挂 载 过 程 的 每 个 步 又 ， 理 清 了 NFS 的 安全 
机 制 ， 还 研究 了 读 写 过 程 的 各 种 细节 ， 几 乎 把 NFS 协 议 的 方方面面 都 
黎 盖 了 。 如 采 你 认真 读 完 本 文 ， 可 以 说 对 NFS 的 理解 已 经 达到 很 高 的 
境界 ， 以 后 碰 到 类 似 noac 这 上 般 隐 向 的 问题 也 难 不 倒 你 。 假 如 真能 遇 到 
殖 手 的 难题 ， 我 建议 用 Wireshark 分 析 。 一 旦 用 它 解决 了 第 一 个 问题 ， 
茶 喜 你 ， 很 快 训 会 中 毒 上 瘾 的 。 中 毒 之 后 会 有 什么 症状 呢 ? 你 可 能 碰 


到 什么 问题 都 想 抓 个 包 分 析 ， 


口 打 个 次 油 部 要 骑 车 去 。 


从 Wireshark 看 网 络 分 层 


网 络 课 的 学 生来 说 ， 最 难 理解 的 莫 过 于 网 络 分 层 了 。 


对 于 刚 上 


忠 像 小 时 候 刚 学 


会 狸 车 一 样 ， 到 小 区 门 


“只 不 过 是 传输 一 些 数据 ， 为 什么 要 分 那么 多 层次 呢 ? ”这 是 大 学 


里 一 直 困 扰 我 的 问题 。 
抽象 ， 我 始终 


名 网 络 工程 师 来 说 是 不 可 接受 的 ， 


虽然 课本 在 此 处 花费 了 不 少 笔墨 
4 无 法 想像 一 个 网 络 包 里 的 层次 究竟 是 什么 样子 。 这 对 一 
束 像 连 絮 官 都 分 不 清楚 的 医生 ， 谁 


能 放心 让 他 做 手术 呢 ? 幸好 后 来 遇 到 Wireshark ， 才 算 解 开 了 这 


问 。 


;但 还 是 过 于 


文 个 疑 


前 文 已 经 介绍 过 NFS 协 议 ， 我 们 便 以 它 为 例 来 学 习 网 络 分 层 。 图 1 
器 10.32.106.62 上 写 文 件 时 抓 的 网 络 包 。 


证 客户 端 出 10.32.106.159 往 服务 


lo， Sour 
13 10, 32. 106.159 


14 10, 32.106. 6. 


Protocol 
2 08-11 3 14:10 NFS 
2013-08-11 10:14:10 NF: 


nation 
32.。 106.62 


CREATE Call (Reply In 14), DH:0x2cc9bel8/test, txt Mode;UNCHECKED 
10.32. 106. 
,1 | 


nn all In 13 
WAITE 《 ReP Im 1 


1 全 Ey ET 62 
17 10, 32.106. 62 


n Frame 15; 250 bytes 
nt 2 a 让 Int me 1 eas a 人 {00:04:23:d4:4d:e2), 


习 Ether 


ed msston. ne es Protoco]l, src Por 
1 oced 11 
9 Network Fi iTe e System WRITE ea 11 FH 


0000 00 60 16 2b 5d bz2 00 04 23 (44 
0010 00 eC 44 60 40 00 40 06 Oc Bf 03 20 6a gf 0a 20 ,. "@, 
a 9 56 10 62 7e j> 


[' ' 
> 804 el CEN 
a rE Re py (call In 2 Len;28 FILE_SYNC 


2013- 售 
2013-08-11 10: 14:10 


10. E 106. TCP 
2013-08-11 10;14;10 NFS 


10.32.106.159 
D0 bits), 250 bytes i 二 er bits) 
iion 2b:5d:b2 (00:60:16:2b:5d:b2) 
rc: 10.32.106.159 (10.32.106.159), : Sp 32.106. 62 (10.32.106.62) 
Tt: 804 (804), DST en nfs (2049), Seq: 605, ACK: 637, Len: 184 


e:Call XITD;0x37796fa7 
:0xf87a7de0 Offset:0 Len:28 FILE_SYNC 


4d ez 05 00 45 00 . .+]... $f.M,..E. 


0040 cd 7d 80 00 00 b4 37 79 5。 
0050 09 02 00 0O1 86 a3 00 00 00 34 00 90 09 0 se 
0060 00 Ol 00 00 00 38 00 az "所 2 才 后 5 

D7 1 00 00 00 

0080 09 如 60 80 30 02 0 8 a 
0090 

00a0 0 


Ju8833398RRSYS 风 


个 包 大 概 做 了 下 面 这 些 事 。 


客户 端 
服务 器 


才能 看 到 


[© 


“我 想 创 建 test.txt。” 
“创建 成 功 啦 〈 该 文件 的 fle handle 是 0xf87a7de0， 


2 


sy 四 到 


客户 端 : “我 想 写 28 个 字 市 到 该 文件 里 (这 些 字 市 显示 在 图 1 的 右 
下 角 ) 。” 

服务 器 :“ 收 到 啦 。>” 

服务 器 :“ 写 好 啦 。” 

其 中 第 3 个 包 (编号 为 15) 的 详情 如 图 2 所 示 。Wireshark 已 经 形象 
地 把 这 个 包 的 内 容 用 分 层 的 结构 显示 出 来 。 


No. Source Destination Time Protocol Info 
15 10. 32.106.159 10.32.106.62 2013-08-11 10:14:10 NFS V3 WRITE Ca 


9 Frame 15: 250 bytes on wire (2000 bits), 250 bytes captured (2000 bits) 
网 络 按 口 必 d=—=<5 Ethernet II, Src: Intel_d4:4d:e2 (00:04:23:d4:;4d:e2), Dst; Clariion 2b:;5d 
网 络 互 这 层 和 oe_==、_4 Internet Protocol, Src: 10.32.106.159 (10.32.106.159), Dst: 10.32.106.62 ' 
传输 已 me Transmission Control Protoco1，Src Port: 804 (804), Dst Port: nfs (2049), 
成 用 9 Remote Procedure Call, Type:Call xID:0x37796fa7 
9 Network File System, WRITE Call FHIOxf87a7de0 offset:0 Len:28 FILE_SYNC 


图 2 


。 应 用 层 : 由 于 NFS 是 基于 RPC 的 协议 ， 所 以 Wireshark 把 它 分 成 
NFS 和 RPC 两 行 来 显示 。 仔 细 检 查 这 一 层 的 详细 信息 ， 会 发 现 它 只 专 
注 于 文件 操作 ， 比 如 读 或 者 写 ， 而 对 于 数据 传输 一 无 所 知 。 点 开 “+” 号 
便 能 看 到 这 个 写 操作 的 详情 ， 比 如 用 户 的 UID、 文 件 的 fle handle 和 要 
写 的 字 节 数 等 。 


“ 传输 层 : 这 一 层 用 到 了 TCP 协议 。 应 用 层 所 产生 的 数据 吏 是 由 
TCP 来 控制 传输 的 。 点 开 TCP 层 前 的 “+” 号 ， 我 们 可 以 看 到 Seq 号 和 Ack 
号 等 一 系列 信息 ， 它 们 用 于 网 络 包 的 排序 、 重 传 、 流 量 控制 等 。 虽 然 
名 日 “传输 层 ?”， 但 它 并 不 是 把 网 络 包 从 一 个 设备 传 到 男 一 个 ， 而 只 是 
对 传输 行为 进行 控制 。 真 正 负责 设备 间 传 输 的 是 下 面 两 层 。TCP 是 非 
党 有 用 的 协议 ， 也 十 本 书 的 重点 。 


“ 网 络 互 连 层 (网 络 层 ) : 在 这 个 包 中 ， 本 层 的 主要 任务 是 把 TCP 
层 传 下 来 的 数据 加 上 目标 地 址 和 源 地 址 。 有 了 目标 地 址 ， 数 据 才 可 能 
送 达 接收 方 ， 而 有 了 产地 址 ， 接 收 方才 知道 发 送 方 是 谁 。 


， 网 络 接口 层 〈 数 据 链 路 层 ) : 从 中 可 以 看 到 相 邻 两 个 设备 的 
MAC 地 址 ， 因 此 该 网 络 包 才能 以 接力 的 方式 送 达 目标 地 址 。 


从 这 个 例子 中 ， 我 们 可 以 看 到 网 络 分 层 束 像 是 有 序 的 分 工 。 每 一 
层 都 有 目 己 的 责任 范围 ， 上 层 协议 完成 工作 后 整 交 给 下 一 层 ， 最 终 形 
成 一 个 完整 的 网 络 包 。 这 个 过 程 可 以 用 图 3 表示 。 


到 3 


图 


现在 回想 起 来 ， 如 有 果 当 时 老师 能 打开 Wireshark， 让 我 们 看 到 这 些 
实 实在 在 的 分 层 ， 我 也 不 会 困惑 那么 久 了 (假如 那天 我 没有 逃课 的 
话 ) 。 不 过 教科 书 上 有 一 个 例子 ， 倒 的 确 是 很 有 助 于 理解 分 层 的 ， 这 
么 多 年 之 后 我 还 记得 它 一 有 位 经 理想 给 另 一 个 城市 的 经 理 寄 个 文件 ， 
过 程 大 概 如 图 4 所 示 。 


这 个 场景 中 的 4 个 角色 可 以 对 应 网 络 的 4 个 层次 ， 每 个 角色 都 有 目 
己 的 分 工 ， 最 终 完成 文件 的 送 达 。 分 工会 市 来 很 多 好 处 ， 因 为 每 个 人 
都 可 以 专注 目 己 擅长 的 领域 ,更 好 地 服务 他 人 。 经 理 不 一 定 要 学 会 
车 ， 殊 像 写 NFS 代 码 的 程序 员 可 以 完全 不 懂 路 由 协议 。 秘 书 可 以 服务 
多 名 经 理 ， 正 如 TCP 层 可 以 文 持 很 多 应 用 层 协议 。 

如 采 让 邮递 员 包 揭秘 书 的 工作 ， 是 否 也 可 以 呢 ? 说 不 定 也 能 做 
到 ， 虽 然 听 上 去 很 滑稽 。 历 史上 还 真 存 在 过 这 种 情况 一 TCP 和 了 PP 刚 发 
明 的 时 候 惑 是 合 在 一 层 的 ， 后 来 才 拆 成 两 层 。 那 么 ， 如 有 果 在 经 理 和 秘 
书 之 间 加 个 助理 ， 专 门 负责 检查 错别字 ， 会 有 问题 吗 ? 与 很 多 官僚 作 
风 闫 重 的 机 构 一 样 ， 多 盖 一 个 章 束 要 多 化 一 些 时 间 。 还 记得 20 世 纪 那 
场 OSI 七 层 模型 与 TCP/IP 模 型 的 竞争 吗 ? 最 终 胜出 的 就 是 分 层 更 简单 
的 TCP/PP 模 型 。 要 知道 网 络 分 层 的 目的 并 不 仅仅 是 完成 任务 ， 而 是 要 
用 最 好 的 方式 来 完成 。 

理解 了 分 层 的 基本 概念 ， 我 们 再 来 看 看 复杂 一 点 的 情况 。 如 采 这 
个 写 操作 比较 大 , 变 成 8192 字 节 ，TCP 层 又 该 如 何 处 理 ? 是 否 也 是 简单 
地 加 上 TCP 头 就 交 给 网 络 互 连 层 〈 网 络 层 ) 呢 ? 答案 是 否定 的 。 因 为 


网 络 对 包 的 大 小 是 有 限制 的 ， 其 最 大 值 称 为 MTU ， 即 “最 大 传输 单 
元 ”。 大 多 数 网 络 的 MTU 是 1500 字 下， 但 也 有 些 网 络 局 用 了 巨 帧 
(Jumbo Frame) ， 能 达到 9000 字 节 。 一 个 8192 字 和 的 包 进 入 巨 帧 网 络 
“会 有 问题 ， 但 到 了 1500 字 节 的 网 络 中 就 会 被 丢 充 或 者 切 分 。 被 丢弃 
意味 着 传输 彻底 失败 ， 因 为 重 传 的 包 还 会 再 一 次 被 丢 弃 。 而 被 切 分 则 
意味 着 传输 效率 降低 。 

由 于 这 个 原因 ，TCP 不 想 简 单 地 把 8192 字 节 的 数据 一 口气 传 给 网 
络 互 连 层 ， 而 是 根据 双方 的 MTU 决 定 每 次 传 多 少 。 知 道 自己 的 MTU 容 
易 ， 但 对 方 的 MTU 如 何 获得 呢 ? 如 图 5 所 示 ， 在 TCP 连 接 建立 (三 次 
握手 ) 时 ， 双 方 都 会 把 自己 的 MSS (Maximum Segment Size) 告诉 对 


方 。MSS 加 上 TCP 头 和 TIP 头 的 长 度 ， 束 得 到 MTU 了 。 


Destmatlom 


10. 


BF > surpe [CRT soa- Xk Wi 


在 第 一 个 包 里 ， 客 户 端 声明 自己 的 MSS 是 8960， 意 味 着 它 的 MTU 
就 是 8960+20 (TCP 头 ) +20 (IP 头 ) =9000。 在 第 二 个 包 里 ， 服 务 器 声 
明 自 己 的 MSS 是 1460， 意 味 着 它 的 MTU 就 是 1460+20+20=1500。 图 6 
是 TCP 连 接 建 立 之 后 的 写 操 作 ， 我 们 来 看 看 究竟 是 哪个 MTU 起 了 作 
用 o 

客户 端 在 包 号 46 创 建 了 abc.txt， 然 后 通过 48、49、51、52、54 和 
55 共 6 个 包 完 成 了 这 个 8192 字 节 的 写 操 作 。 这 些 包 的 大 小 符合 接收 方 的 
MTU 1500 字 节 ( 见 图 6 中 划 线 的 Total Length: 1500) ， 而 不 是 发 送 方 
本 身 支持 的 9000 字 节 。 也 就 是 说 ， 接 收 方 的 MTU 起 了 决定 作用 。 


No, Source Destinabon Time Protocol Info 
45 10.32.106,159 10.32.106,62 2013-08-14 13:27:13 NFS V3 CREATE Call (Reply In 7 DH:Ox2cc9be18/abc,txt Mode:UNCHECKED 
47 10.32.106.62 10.32-.106.159 2013-08-14 13:27:13 NFS v3 SBS py Ko Rt In 46) 


4B 10- 32-106.159 10.32.106.62 2013-08-14 13:27:13 TP [cr segme ssemwbled PDU] 
49 10.32.106.159 10.32.106,62 2013-08-14 13:27:13 TCP Frep Segmei ssembled PDU] 
50 10.32.106.62 10.32.106,159 2013-08-14 13;27:;13 TCPp nfs > silc "eg se eq a85 Ac| er a8 Win=393216 Len=0 TSsval=372931 TSecr=; 
51 10.32.106.159 10.32.106.62 2013-08-14 13:27:13 Tep free eit rr Du] 


52 10-32-106.159 10. 32-106. 62 2013-08-14 13:27:13 TcP [rcP segme Do] 

53 10.32.106.62 10.32.106,159 2013-08-14 13:27:13 TCp Me > ee "eer 了 ee a 3 Win-393215 Len-0 TSVal-372931 TSecr-' 

54 10.32.106.159 10.32.106.62 2013-08-14 13:27:13 TCP [ITCP segmei DU] 

55 10.32.106.159 10.32.106.62 2013-08-14 13:27:13 NFS V3 Sa Ca a11 Che ey m 区 En aed53a5 Offser :0 Len:5192 FILE_SYNC 

56 10- 32-106.62 10.32.106.159 2013-08-14 13:27:13 TCP silc [ACK] 5 wine Len-0 Te 二 放 372931 TSecr~. 
57 10.32.106.62 10.32.106,159 2013-08-14 13:27:13 NFS ee el reply Cail ce 本 Le Re FILE_SYNC 


Frame 48: 1514 byres on wire (12112 ee a ee ee ured birts) 
FE Ethernet Ce i Intel_d4:;4d;e2 (00;04;23:d4:4d: e2), : Clariion 2b:;5d;b2 (00:;60;16;2b;5d:b2) 
rn Protocol, Src: 10,32.106. 159 pt 党 人 :159), es 10. 3 108, 62 《10. 32.106, 52) 


Wa engrh: 怠 es 
日 Differ Vices Field;: Ox00 (DSCP Ox00; Default; ECN: 0x00: Not-ECT (Not ECN-Capable Transport)) 


六 J 
m: Oxcal7 [correct] 
10. 32 106。 159 〈10. 32.106.159 
De: ati ion; 10. 32.106.62 人 Re en td 
由 ra Control protocol, silc (706), Dst Port: nfs (2049), Seq: 7685, Ack: S835, Len: 1448 


图 6 


假如 把 客户 端 和 服务 颖 的 MTU 互 换 一 下 ， 这 时 客户 问 最 大 能 发 出 
多 少 字 节 的 包 呢 ? 答案 还 是 1500。 因 为 无 论 接受 方 的 MTU 有 多 大 ， 发 
送 方 都 不 能 发 出 超过 自己 MTU 的 包 。 我 们 可 以 得 到 这 样 的 结论 : 发 包 
的 天 小 是 由 MTU 较 小 的 一 方法 定 的 
这 个 例子 告诉 我 们 ， 分 层 之 间 的 关系 还 不 仅 是 分 工 。 某 些 分 层 的 
es 比如 TCP， 甚 至 会 主动 为 下 一 层 着 想 ， 从 而 避免 很 多 问题 。 当 
然 个 方案 还 不 算 完美 。 如 果 网 络 路 径 上 存在 着 一 个 MTU 小 于 1500 的 
这 个 包 还 是 可 能 被 丢弃 或 者 切 分 。 正 如 Wikipedia 所 说 ，“There 
is no simple method to discover the MTU of links” ° 
一 个 分 层 的 概念 束 写 了 这 么 多 ， 你 或 许 早 承 开 始 纳闷 : 为 什么 网 
结 要 设计 得 如 此 复杂 ? 又 是 分 层 又 是 分 组 的 。 其 实 当 我 被 各 种 难题 搞 
得 焦头烂额 的 时 候 ， 也 有 过 这 个 想法 ， 但 无 奈 这 就 是 现实 一 假如 没有 
we 网 络 瓯 不 会 如 此 强大 ， 也 达 不 到 今天 的 规模 。 从 另 
一 个 角度 考虑 ， 正 是 复杂 的 设计 才 让 我 们 有 了 这 份 工作 ， 感 谢 祖师 爷 
们 网 饭 。 


TCP 的 连接 启蒙 


听 说 现在 的 年 青 人 可 以 用 手机 摇 到 妹子 ， 可 惜 在 我 们 那个 年 代 ， 
手机 的 主要 功能 只 有 两 个 一 电话 和 短信 。 人 们 和 赁 直觉 决定 该 打 电 话 还 
是 发 短信 ， 却 很 少 去 深究 这 两 者 的 本 质 差别 。 

打 电 话 时 要 人 移 拨 号 ， 等 搂 通 之 后 才 开 始 讲话 。 如 条 有 人 还 没 拨号 
就 对 着 电话 目 言 自 语 ， 旁 人 一 定 会 觉得 很 诡异 。 而 发 短信 时 根本 不 用 
考虑 对 方 在 干 旷 ， 直 接 发 出 去 束 是 了 。 这 两 种 方式 的 本 质 莽 别 就 是 ， 
打 电 话 时 要 先 * 建 立 连接 ”( 即 拨号 ) ， 而 短信 不 需要 。 建 立 连接 需要 
花费 一 些 时 间 ， 但 也 意味 着 更 加 可 靠 。 我 们 可 以 在 电话 上 确保 对 方 已 
经 听 明 日 。 而 短信 束 不 行 了 ， 发 送 之 后 并 不 知道 对 方 是 否 及 时 收 到 ， 
也 不 知道 有 没有 产生 误解 。 有 一 个 突 话 这 样 调 悠 短信 所 引发 的 事故 一 
出 差 的 丈夫 一 大 早 台 给 妻子 发 了 条 短信 “Ihad a night, and 
really wish you were here”。 不 笠 的 是 ， 他 少 打 了 最 后 一 个 “e”， 这 个 误 
会 估计 需要 一 个 面对面 的 连接 才能 化 解 。 

网 络 的 传输 层 和 手机 一 样 用 于 传递 信息 。 它 也 有 两 种 方式 一 TCP 
和 UDP， 其 中 TCP 古 基于 连接 的 ， 而 UDP 不 需要 连接 。 它 们 各 目 文 持 
一 些 应 用 层 协 议 ， 但 也 有 些 协议 是 两 者 都 文 持 的 ， 比 如 DNS 。 我 们 正 
好 可 以 用 DNS 来 比较 TCP 和 UDP 的 差别 。 在 我 的 实验 室 中 ， 客 户 端 
10.32.106.159 向 DNS 服务 器 10.32.106.103 发 起 一 个 DNS 查询 ， 以 期 获得 
paddy_cifs.nas.com 所 对 应 的 IP 地 址 。 

1. DNS 默认 使 用 UDP 的 情况 下 ( 见 图 1) : 

[root@shifml ~]# nslookup 


Address: 16.32.166.77 
>exit 


图 1 


这 个 过 程 的 所 有 网 络 包 如 后 2 所 不 : 


No Source Destination Tim rotocol 
1 10. 32.106.159 10， 32. 106.103 2013- 08-13 16:57: 过 DNS ndard que 
~ 210.32.106.103 10.32.106.159 2013-08-13 1 Be 


图 2 


2.， 用 set vc 强制 DNS 使 用 TCP 的 情况 下 ( 见 图 3) : 


[root@shifml1 ~]# nslookup 

> set vc 

> paddy_cifs.nas.com 

Server: 16.32.166.163 
Address: 16.32.166.163#53 
Name: “paddy_cifs.nas.com 
Address: 16.32.166.77 


>exit 


图 3 


这 个 过 程 的 所 有 网 络 包 如 图 4 所 示 : 


N Source Desination Time Protocol Info 


3 10. 32.106.15910. 32.106.103 16:39:08.396 TCP 38541 > domain [AcCK] seq=1 Ack=1 Win=5856 Len=0 Tsval=2711905588 T: 
4 10.32.106.15910, 32.106.103 16:39:08.396 DN5 Standard query A paddy_cifs.nas.com 

5 10.32.106.10310.32.106.159 16:39:08.397 DNS standard query response A 10.32.106.7 

6 10.32.106.15910, 32.106.103 16:39:08.397 TCP 38541 > domain [ACK] Seq-39 Ack=-55 Win-5856 Len-0 TSval-~2711905588 


8 10. 32.106.10310, 32.106.159 16:39:08.398 TCP domain > 38541 [ACK] Seq-55 Ack=40 win-65497 Len-0 TSval-81445534 1 


10 10. 32.106.159310, 32.106.103 16:39:08.398 TCP 3854] > Somain [ACK] Seq-40 ACK=5b win-9856 Len-0 T5v51~2711905588 


图 4 


从 这 两 种 情况 的 截图 可 以 看 到 ， 真 正 起 查询 作用 的 只 有 两 个 DNS 
名 o 

客户 端 : “paddy_cifs.nas.com 的 卫 是 多 少 啊 ? ” 

服务 器 : “是 10.32.106.77。” 

在 使 用 UDP 的 情况 下 ， 的 确 只 用 这 两 个 包 束 完成 了 DNS 查询 。 但 
在 使 用 TCP 时 ， 要 先 用 3 个 包 〈 包 号 1、2、3) 来 建立 连接 。 查 询 结束 
后 ， 又 用 了 4 个 包 〈 包 号 7、8、9、10) 来 断 开 连接 。Wireshark 把 这 两 
种 情况 的 差别 完全 显示 出 来 了 。 我 们 可 以 从 中 看 到 连接 的 成 本 远 远 超 
过 DNS 查 询 本 映 ， 这 对 繁忙 的 DNS 服 务 絮 来 说 无 疑 是 巨大 的 压力 。 如 
果 你 的 DNS 还 在 使 用 TCP， 该 考虑 更 改 了 。 

连接 当然 要 付出 代价 ， 但 带 来 的 好 处 也 很 多 ， 这 束 是 为 什么 多 数 
应 用 层 协议 还 是 基于 TCP 的 原因 。 在 以 后 的 莫 广 里， 你 将 从 Wireshark 
看 到 TCP 的 巨大 优势 ， 不 过 在 此 之 前 ， 一定 要 理解 TCP 的 工作 原理 。 


Wireshark 上 能 看 到 很 多 TCP 参 数 ， 理 解 了 它们 束 是 学 习 TCP 最 好 的 开 
始 。 图 5 是 10.32.106.159 往 10.32.106.62 传 数据 的 过 程 。 我 已 经 把 一 些 参 
数 用 不 框 标志 出 来 ， 以 便 阅读 时 参照 


有 33 .106.159 有 32， 106. 62 2 08-14 证 cnr tinuation to #46] silc > nfs I K] [Seq-3681| Ack-885 win-21152 [Len-1448] 
52 10.32.106.159 10.32,106.62 2013-08-14 rc xp bar {on #45] silc > nfs [ACK] seq-5129 ACk- -3 win-21152 Len-1445 
53 10. 32.106.62 10.32,106.159 2013-08-14 C [ack] 5 i Nn-0 T5val~372931 TSeCr-2 7300 
54 10.32.106.159 10.32,106.52 2013-08-14 es De ee to #46B] Silc > nfs [ACK] ene ACKk~| Ee Win-21152 Len-1448 
55 10.32.106.159 10,32,106.62 2013-08-14 TCP Et 上 nm to 3] silc > nfs [PS5H, ACK] 5eq-8025 Ac ke de Len- 
56 10.32.106.62 10.32.106.159 2013-08-14 TCP c [ACK] Seq=885 A el 9133 win=393216 Len=0 Tsval 1 TSecr=27300 


图 5 


Seq: 表示 该 数据 段 的 序号 ， 如 图 5 中 的 Seq 二 3681 。 

TCP 提 供 有 序 的 传输 ， 所 以 每 个 数据 段 都 要 标 上 一 个 序号 。 当 接 
收 方 收 到 乱 序 的 包 时 ， 有 了 这 个 序号 整 可 以 重新 排序 了 。 我 们 不 一 害 
要 知道 Seq 号 的 起 始 值 是 怎么 算出 来 的 ， 但 必须 理解 它 的 增长 方式 。 如 


图 6 所 示 ， 数 据 段 1 的 起 始 Seq 号 为 1， 长 度 为 1448 (意味 着 它 包 含 了 
1448 个 字符 ) ， 那 么 数据 段 2 的 Seq 号 就 为 1+1448=1449。 数 据 段 2 的 长 
度 也 是 1448， 所 以 数据 段 3 的 Seq 号 为 1449+1448=2897。 也 就 是 说 ， 一 
个 Seq 号 的 大 小 是 根据 上 一 个 数据 段 的 Seq 号 和 长 度 相 加 而 来 的 。 


图 5 的 Wireshark 和 截屏 也 显示 了 相同 的 情况 ， S13 全 的 Seq=3681， 
Len=1448， 所 以 52 号 包 的 Seq=3681+1448=5129。 这 个 Seq 号 是 由 这 两 
个 包 的 发 送 方 ， 也 就 是 10.32.106.159 维 护 的 。 

由 于 TCP 是 双向 的 ， 在 一 个 连接 中 双方 都 可 以 是 发 送 方 ， 所 以 各 
自 维 护 了 一 个 Seq 号 。53 号 包 和 56 号 包 的 Seq 号 是 10.32.106.62 维 护 的 ， 
由 于 53 号 包 的 Seq=885，Len=0， 所 以 56 号 包 的 Seq=885+0=885。 

Len: 该 数据 段 的 长 度 ， 如 图 5 中 的 Len=1448， 注 意 这 个 长 度 不 包 
括 TCP 头 。 图 5 中 虽然 10.32.106.62 发 出 的 两 个 包 Len=0， 但 其 9 
TCP 头 的 。 头 部 本 和 喘 携 带 的 信息 很 多 ， 所 以 不 要 以 为 Len=0 就 没 彰 

Ack: 确认 号 ， 如 图 5 中 的 Ack = 6577， 楼 收 方向 发 送 方 确 认 已 经 
收 到 了 哪些 字 节 。 


比如 甲 发 送 了 “Seq:xLen: y” 的 数据 段 给 乙 ， 那 乙 回 复 的 确认 号 就 
是 x+ty， 这 意味 着 它 收 到 了 x+y 之 前 的 所 有 字 节 。 同 样 以 儿 5 为 例 ，52 
号 包 的 Seq=5129，Len=1448 ， 所 以 来 目 接 收 方 的 53 号 包 的 
Ack=5129+1448=6577， 表 示 收 到 了 6577 之 前 的 所 有 字 节 。 理 论 上 ， 接 
收 方 回 复 的 Ack 号 恰好 就 等 于 发 送 方 的 下 一 个 Seq 号 ， 所 以 我 们 可 以 看 
到 54 号 包 的 Seq 也 等 于 5129+1448=6577。 

你 也 许 想 问 51 号 包 为 什么 没有 对 应 的 确认 包 呢 ? 其 实 53 号 包 确 认 
6577 的 时 候 ， 表 示 序 号 小 于 6577 的 所 有 字 节 都 收 到 了 ， 相 当 于 把 51 号 
发 送 的 字 节 也 一 并 确认 了 ， 也 就 是 说 TCP 的 确认 是 可 以 累积 的 。 

在 一 个 TCP 连 接 中 ， 因 为 双方 都 可 以 是 接收 方 ， 所 以 它们 各 自 维 
护 自 己 的 Ack 号 。 本 例 中 10.32.106.62 没 有 发 送 任何 字 节 ， 所 以 
10.32.106.159 发 出 的 Ack 号 一 直 不 变 。 

你 可 能 要 花 些 心思 来 学 习 这 几 个 参数 ， 不 过 付出 是 值得 的 。 因 为 
一 旦 理解 了 它们 ， 接 下 来 学 习 TCP 的 特性 就 会 水 到 渠 成 。 比 如 当 包 乱 
序 时 ， 接 收 方 只 要 根据 Seq 号 从 小 到 大 重新 排 好 束 行 了 ， 这 样 束 保证 了 
TCP 的 有 序 性 。 再 比如 有 包 丢 失 时 ， 接 收 方 通过 前 一 个 Seq+Len 的 值 与 
下 一 个 Seq 的 差 ， 束 能 判断 缺 了 哪些 包 ， 这 保证 了 TCP 的 可 靠 性 。 我 们 
举 个 例子 来 说 明 这 两 种 状况 ， 以 下 3 个 包 到 达 了 接收 方 ( 见 表 1) : 


表 1 


第 一 个 包 第 二 个 包 第 三 个 包 
Sed:301 Len:100 Sed:101 Len:100 Sed:401 Len:100 


很 明显 ， 从 Seq 号 可 见 它们 的 顺序 是 乱 的 。 重 痢 排 序 之 后 应 该 是 下 
面 这 个 样子 ( 见 表 2) : 


表 2 


Seq:101 Len:100 Seq:301 Len:100 Seq:401 Len:100 


排序 完 之 后 还 是 有 问题 。 第 一 个 包 的 Seq+Len=101+100=201， 意 
味 着 下 一 个 包 本 应 该 是 Seq:201， 而 不 是 实际 收 到 的 Seq:301。 由 此 接 
收 方 可 以 推断 ，“S$eq:201” 这 个 包 可 能 已 经 丢失 了 。 于 是 它 回 复 
Ack:201 给 发 送 方 ， 提 醒 它 重 传 Seq:201 。 

除了 这 几 个 参数 ，TCP 头 还 附带 了 很 多 标志 位 ， 在 Wireshark 上 经 
常 可 以 看 到 下 面 这 些 。 


“SYN: 携 市 这 个 标志 的 包 表 示 正 在 发 起 连接 请 求 。 因 为 连接 是 
双 同 的 ， 所 以 建立 连接 时 ， 双 方 都 要 发 一 个 SYN 。 


。FIN: 携带 这 个 标志 的 包 表 示 正 在 请 求 终 止 连 接 。 因 为 连接 是 双 
向 的 ， 所 以 彻底 关闭 一 个 连接 上 时， 双方 都 要 发 一 个 FIN。 


“RST: 用 于 重 置 一 个 混乱 的 连接 ， 或 者 拒绝 一 个 无 效 的 请 求 。 


如 图 7 所 示 ， 我 故意 尝试 连接 一 台 Linux 服 务 器 的 445 端 口 (一 般 只 
有 Windows 上 才 开 启 这 这 个 六 端口 ，Wireshark 上 把 该 端口 显示 为 microsoft- 
ds) ， 结 果 就 被 RST 了 “。 当 然 这 个 实验 属于 “没事 找 抽 型 ”， 实 际 环境 
中 的 RST 往 往 意味 着 大 问题 。 如 采 你 在 Wireshark 中 看 到 一 个 RST 包 ， 
ee 好 好 检查 


No. _S OUTCE Desbnotion Time Protocol Info 
169 10. 32. 200. 43 ). 32.106.173 2013-09-02 10:55:18 Tcp 62114 > wicrosoft-ds [SYN] Seq=0 Win=8192 Len=0 MS5=1428 
#43 2013-09-02 :55:18 Tp microso Ss > 62114 [RST, ACK] Se 


图 7 


了 解 了 这 些 参数 和 标志 位 ， 我 们 整 可 以 学 习 TCP 是 如 何 管 理 连接 
的 了 。 图 8 十 一 个 标准 的 连接 建立 过 程 : 


Source Destingtion 本 retoco, Info 
出 3 0 ee 30 3 3 


和 0 10.32.106.155 2 二 -一 38541 > 二 一 te Seq-l A NT 6856 Len-0 


图 8 


这 三 个 包 就 是 传说 中 的 “三 次 握手 *。 事实 上 ， 握 手 时 Seq 号 并 不 是 
从 0 开始 的 。 我 们 之 所 以 在 Wireshark 上 看 到 Seq=0， 是 因为 Wireshark 启 
用 了 Relative Sequence Number。 如 果 你 想 关 闭 这 个 功能 ， 可 以 在 Edit-- 
>Preferences-->protocols-->TCP 里 设置 。 


启用 Relative Sequence Number 关闭 Relative Sequence Number 


图 9 


如 采用 文字 来 表达 ， 过 程 束 是 这 样 的 。 

客户 端 : “我 能 跟 你 建立 连接 吗 ? 我 的 初始 发 送 序号 是 X。 如 果 你 
答应 就 Ack=X+1。” 

服务 夯 : “ 收 到 啦 ，Ack=X+1。 我 也 想 跟 你 建立 连接 。 我 的 初始 发 
送 序号 是 Y， 你 如 果 答 应 连接 就 Ack=Y+1。” 

客户 端 :“ 收 到 啦 ，Ack 二 Yt+1。” 

为 什么 要 用 三 个 包 来 建立 连接 呢 ， 用 两 个 不 可 以 吗 ? 其 实 也 是 可 
以 的 ， 但 两 个 不 够 可 靠 。 我 们 可 以 设想 一 个 情况 来 说 明 这 个 问题 : 某 
个 网 络 有 多 条 路 径 ， 客 户 端 请 求 建立 连接 的 第 一 个 包 跑 到 一 条 延迟 疗 
重 的 路 径 上 了 ， 所 以 迟 迟 没有 到 达 服 务 器 。 因 此 ， 客 户 端 只 能 当 作 这 
个 请 求 丢 失 了 ， 不 得 不 再 请 求 一 次 。 由 于 第 二 个 请 求 走 了 正确 的 路 
径 ， 所 以 很 快 完成 工作 并 关闭 了 连接 。 对 于 客户 站 来 说 ， 事 情 似乎 已 
经 结束 了 。 没 想到 它 的 第 一 个 请 求 经 过 跋山涉水 ， 还 是 到 达 了 服务 
絮 。 如 图 10 所 示 ， 服 务 器 并 不 知道 这 是 一 个 旧 的 无 效 请 求 ， 所 以 按照 
惯例 回复 了 。 假 如 TCP 只 要 求 两 次 握手 ， 服 务 右 上 束 这 样 建立 了 一 个 
无 效 的 连接 。 而 在 三 次 握手 的 机 制 下 ， 客 户 剖 收 到 服务 右 的 回复 时 ， 


知道 这 个 连接 不 是 它 想 要 的 ， 所 以 就 发 一 个 拒绝 包 。 服 务 右 收 到 这 个 


包 后 ， 也 放弃 这 个 连接 。 
客户 端 服务 器 


当 连 接 请 求 是 旧 的 无 效 包 时 


图 10 


过 三 次 握手 之 后 ， 连 接 就 建立 了 。 双 方 可 以 利用 Seq、Ack 和 


Len 等 -参数 五 传 数据 ° 传 完 之 后 如 何 断 开 连 接 昵 ?图 11 就 是 TCP 断 开 连 
3 


客户 端 : “我 布 望 断 开 连 接 (请 注意 FIN 标 志 ) 。” 
服务 器 :“ 知 道 了 ， 断 开 吧 。” 
服务 器 : “我 这 边 的 连接 也 想 断 开 (请 注意 FIN 标 志 ) 。” 客 户 


项 : < 扬 开 吧 人 


豆 这 样 ， 双 方 都 关闭 了 连接 。 其 实用 四 次 挥手 来 断 开 连接 也 不 完 
可 靠 ， 但 世界 上 不 存在 10096 可 靠 的 通 重信 机 制 。 假 如 对 这 个 话题 感 兴 


趣 ， 可 以 研究 一 下 著名 的 “两 军 问题 ”， 维 基 百 科 上 有 详细 介绍 ， 地 址 
为 http://en.wikipedia.org/wiki/ Two_Generals'_ Problem 。 

工作 中 如 宁 碰 到 断 开 连接 的 问题 ， 可 以 使 用 netstat 命 令 来 排查 ， 
无 论 在 Windows 还 是 Linux 上 ， 这 个 命令 都 能 把 当前 的 连接 状态 显示 出 
来 。 不 过 老话 党 说 ， 最 推荐 的 工具 还 是 Wireshark 。 


快递 员 的 工作 策略 一 一 TCP 窗 口 


假如 你 是 一 位 勤 荔 的 快递 员 ， 要 送 100 个 包 衷 到 某 公 司 去 ， 怎 样 送 
货 才 科学 ? 

最 简单 的 方式 是 每 次 送 1 个 ， 总 共 跑 100 趟 。 当 然 这 也 十 最 慢 的 方 
式 ， 因 为 往返 次 数 越 多 ， 消 耗 的 时 间 就 越 长 。 除 了 需要 减肥 的 快递 
员 , 一 般 人 不 会 选择 这 种 方式 。 最 快 的 方式 应 该 是 一 口气 送 100 个 ， 这 
样 只 要 跑 一 趟 就 够 了 。 可 展现 实 没 有 这 么 美好 ， 往 往 存 在 各 种 制约 
素 : 公司 狭小 的 前 台 只 容 得 下 20 个 包 圳 ， 要 等 签收 完了 才能 接着 送 ; 
更 令 人 郁闷 的 是 ， 电 瓶 车 只 能 装 10 个 包 右 。 综 合 这 两 个 因素 ， 不 难 推 
出 电瓶 车 的 运力 是 效率 瓶 令 ， 而 前 台 的 空间 则 不 构成 影响 。 

快递 送 货 的 策略 非常 浅显 ， 几 乎 人 人 可 以 理解 ， 而 TCP 传 输 大 块 
数据 的 策略 却 很 少 人 懂 。 事 实 上 这 两 者 的 原理 是 相似 的 。 

TCP 显 然 不 用 电瓶 车 送 包 ,但 它 也 有 “往返 ”的 需要 。 因 为 发 包 之 
后 并 不 知道 对 方 能 否 收 到 ， 要 一 直 等 到 确认 包 到 达 ， 这 样 束 花费 了 一 
个 往返 时 间 。 假 如 每 发 一 个 包 束 停 下 来 等 确认 ， 一 个 往返 时 间 里 就 只 
能 传 一 个 包 ， 这 样 的 传输 效率 太 低 了 。 最 快 的 方式 应 该 是 一 口气 把 所 
有 人 包 发 出 去 ， 然 后 一 起 确认 。 但 现实 中 也 存在 一 些 限制 ， 接收 方 的 缓 
存 (接收 窗口 ) 可 能 一 下 子 接受 不 了 这 么 多 数据 ;网 络 的 带宽 也 不 一 
定 足 够 大 ， 一 口气 发 太 多 会 导致 丢 包 事故 。 所 以 ， 发 送 方 要 知道 接收 
方 的 接收 窗口 和 网 络 这 两 个 限制 因素 中 哪 一 个 更 闫 格 ， 然 后 在 其 限制 


范围 内 尽 可 能 多 发 包 。 这 个 一 口气 能 发 送 的 数据 量 就 是 传说 中 的 TCP 
发 送 窗口 。 

发 送 窗 口 对 性 能 的 影响 有 多 大 ? 一 图 胜 千言 ， 图 1 显示 了 发 送 窗口 
为 1 个 MSS ( 即 每 个 TCP 包 所 能 携带 的 最 大 数据 量 ) 和 2 个 MSS 时 的 差 


别 。 在 相同 的 往返 时 间 里 ， 右 边 比 左边 多 发 了 两 倍 的 数据 量 。 而 在 真 
实 环境 中 ， 发 送 窗 口 常 常 可 以 达到 数 十 个 MSS。 


TCP 窗 口 =2 MSS 


图 1 


图 2 就 是 在 真实 环境 中 抓 的 包 ， 抓 包 时 服务 器 10.32.106.73 正 往 客 
户 端 10.32.106.103 发 数据 。 由 于 服务 絮 的 发 送 窗口 很 大 ， 所 以 收 到 读 
请 求 之 后 ， 它 在 没有 客户 端 确认 的 情况 下 连续 发 了 10 个 包 。 


Neo， _ Source Desbnation Protocol Info 

35 10,32,106.103 10.32.106.73 20 9 09: 44. 729 SMBE ead AndXx Reauest, FIiD:; OX0043, 114 5 bytres at 
39 10, 32.106.73 10.32.106.103 2013-09-09 D9;47;44.443205 TCP [TCP segment of a reassembjed PDU] 

40 10, 32.106.73 10. 32.106.103 2013-09-09 09:47:44.443226 Tcp [TCP segment of a reassembled PDU] 

41 10. 32-106-73 10.32.106.103 2013-09-09 09:47:44.443231 TcP [Tcp segment of a reassem bled PDU] 

42 10.32.106.73 10.32.106.103 2013-09-09 09:47:44.443235 TCP [TCP segment of 3 reassembled PDU] 

43 10.32.106.73 10.32.106.103 2013-09-09 09:47:44.443240 TCcP [TcP segment of a reasseml bled PpU] 

44 10.32.106.73 10.32.106.103 2013-09-09 


8 

D9:47:44.443244 TCP [TCP segment of a reassembled PDU] 
D9:47:44.443247 TCcP [TCP segment of a reasseml bled Ppu] 
D9:47:44.443251 TCP [TCP segment of a reassembled PDU] 
0 


45 10.32.106.73 10- 32-106-103 2013-09-09 
46 10, 32.106.73 10.32.106.103 2013-09-09 
47 10.32.106.73 10.32.106.103 2013-09-09 09:47;44.443254 Tcp egment a reasseabled PDU] 

Oe ES ARDS Ne A 

9 10, 32.106.103 10.32.106.73 2013-09-09 09;47 44326 TCP eeCoposser Ver crosoft-ds [LACK] SeQ=1913 Ack=16148 


图 2 
接着 我 把 客户 端的 接收 窗口 强制 成 2920， 相 当 于 两 个 TCP 包 能 携 


带 的 数据 量 。 从 图 3 中 可 以 看 到 客户 站 通过 “win=2920” 把 目 己 的 接收 窗 
口 告诉 服务 右 。 因 此 服务 器 把 发 送 窗口 限制 为 2920， 每 发 两 个 包 束 俘 


下 来 等 待 客户 端的 确认 。 同 样 一 个 14215 字 节 的 读 操 作 ， 图 2 只 用 1 个 往 
返 时 间 就 元 成 了 而 图 3 | 用 了 6 个 。 


No, um 


6: 10.32. 2.106,73 «19.32,105.10 2013-09-10" SB Read Andx Responsé, FID: + O0045, 14215 yes 
ck 


Desjine ation 


28 5: 32. 106. 73 10.32, 106. 103 
a 0 Is 106, 3 10, ps EE 103 


se 32- 106. a 10. 32. ee 103 
32 A 32. Ep Ee 和 0 103 


34 30: 32. 106: 73 10; 32. 106: 103 
35 10. 32. EO pr 32, ee ey 


10232 


32. a 103 


3 a 32。 106. 六 10; 32， 103 


40 10. 32. 106. 2 10. 32; lo5 103 


me 


Protoc: | 其 他 


ffser 0 
nl 
We A E545 Ack=: 385 wi ine65535 L 


2013. 09-10 TP 
a 09-10 TCP ol one hah ACK se 人 Ack=885 cot 上 
oneh ni y 5 Ack=544} 
Se 09-10 TP {ca 28] m > elp Seq-5 ACK=; 85 et 上 
2 99 A Tep lconrinuarton Ww 2 二 oof -0 > omenone. help 2 Seg-， -sa9 Ack= 5 toe 上 
me -hk 可 [ 
20332 09- 10 Tp [ca ati A #26] ee be he ep [ACK] Seq= 5337 Ack=: 8B5 wi e65333 L 
et 09-10 TCPp Ke etnuat ca 26 mcrasofr-ds > np he sp Le ] Seq= A Ac es a win=55535 让 
2taaa 09- 10 TC fe nu microsoft-ds > elp [XRT seo-i1 Ack, es win265535 
a 9 Eh TEP co earHon 0 ?20 micros: RS ds > on eone- he elp [ACK] 5et 本 AC 和 忆 br 
TCP e]f | ck EE 
2 os- 50 [ca nt es tg ds osoft- ds pehome- -he 3 ESM Re Se seq-14129 名 ci 85 hdl im 
eho 人 


TP 


图 3 


为 了 更 好 地 说 明 这 个 过 程 ， 我 把 27 号 包 到 32 号 包 用 对 话 的 形式 表 
示 出 来 ， 插 号 内 的 文字 为 我 添加 的 注释 。 


不 能 再 发 了 。 


客户 病 : 


31 号 包 : 
服务 句 : 


节 。” 
32 


号 全 
服务 需 : 


“当前 我 的 接收 窗口 是 2920。” 


(好 ， 那 我 的 发 送 窗口 就 定 为 2920。) 先 给 你 1460 字 


: “再 给 你 1460 字 节 


ss) “90 号 包 .: 
“你 发 过 来 的 2920 字 节 已 经 处 理 完毕 ， 所 以 现在 我 的 接收 
窗口 又 恢复 到 2920。” 


。 (哎呀 ! 我 的 发 送 窗 口 2920 用 完了 ， 


“(好 ， 那 我 再 把 发 送 窗 口 定 为 2920。) 给 你 一 个 1460 字 


“再 给 你 1460 字 节 。 (哎呀 ! 我 的 发 送 窗 口 2920 又 用 完 


了 ， 不 能 再 发 了 本 
你 也 许 有 个 疑问 ， 本 文 的 开头 不 是 说 有 两 个 限制 因素 吗 ? 这 个 例 


子 只 提 到 了 接收 窗口 对 发 送 窗口 的 限制 ， 那 网 络 的 影响 呢 ? 由 于 网 络 


的 影响 方式 非常 复杂 ， 所 以 本 文 暂 时 跳 过 。 下 一 篇 文章 将 作 详 细 介 
有 

不 知道 出 于 何 种 原因 ，TCP 发 送 窗口 的 概念 被 广泛 误解 ， 比 如 ， 
很 多 人 会 把 接收 窗口 误 认为 发 送 窗 口 。 我 经 常 想 在 论坛 上 回答 相关 提 
问 ， 却 不 知道 该 从 何 管 起 ， 因 为 有 些 提问 本 和 映 束 基于 错误 的 概念 。 下 
面 古 一 些 经 党 出 现 的 问题 。 


1. 如 图 4 的 底部 所 示 ， 每 个 包 的 TCP 层 都 含有 “window size:” (也 就 是 
win=) 的 信息 。 这 个 值 表示 发 送 窗 口 的 大 小 吗 ? 


38 10. 32.106.103 10.32.106.73 2013-09-09 09:47:44.440729 SsMB Read AndX Request, FID: Ox004a, 14215 bytes 
39 10.32.106.73 10.32.106.103 2013-09-09 09:47:44.443205 TCcP [TCP segment of a reassembled PDU] 
40 10.32.106.73 10.32.106.103 2013-09-09 09:47:44.443226 TcP [TCP segment of a reassembled PDU] 
41 10.32.106.73 10.32.106.103 2013-09-09 09:47:44.443231 TCP [TCP segment of a reassembled PDU] 
42 10.32.106.73 10.32.106.103 2013-09-09 09:47:44.443235 TCcp [TCP segment of a reassembled PDU] 
MIIN IF ANG 73 AN FF ING NF IM FNOND NGO-A7°AN NAAITIAN Tro Tro canmorr nF 3 rasccomhler on 


EE Frame 38: 129 bytes on wire (1032 bits), 129 bytes captured (1032 bits) 
EE Ethernet II, Src: Vmare_al:58:;41 (00:50:56;al:58:41), Dst: i 0d:07 COnS6016:E 0207 
- EE 2 . 733 


) > 
E Transmission rp ae Src Port: leecoposserver CQ212), ESE OPE mi EE ds (445), Seq: 1850, Ack 
Source Pt leecoposservel r (2212) 
Destinati EY ort: micro Et ds (445) 
tream 


Sequence Se 1850 (relative sequence number) 
[Next sequence number ;1913 {relative 5equence number )] 
ACknowledgement number : 1869 (relative ack number) 
Header length: 32 bytes 

I Flags: OxiB (PSH, ACK) 


图 4 


这 不 是 发 送 窗 口 ， 而 是 在 向 对 方 声明 自己 的 接收 窗口 。 在 此 例子 
中 ，10.32.106.103 癌 10.32.106.73 声 明 自 己 的 接收 窗口 是 64093 字 节 。 
10.32.106.73 收 到 之 后 ， 就 会 把 自己 的 发 送 窗 口 限 制 在 64093 字 市 之 
内 。 人 的 滑动 窗口 机 制 ， 说 的 就 是 这 两 个 窗口 的 关 
系 ， 本 文 束 不 再 袭 述 了 

假如 接收 方 处 更 数 乌 的 速度 限 不 上 接收 数据 的 速度 ， 缓 存 就 会 被 
占 满 ， 从 而 导 人 致 接收 窗口 为 0°。 如 图 5 的 Wireshark 截 屏 所 示 ，89.0.0.85 
寺 续 向 89.0.0.210 声 明 自 己 的 接收 窗口 是 win=0， 所 以 89.0.0.210 的 发 送 
窗口 就 被 限制 为 0， 意 味 着 那 段 时 间 发 不 出 数据 。 


No Source Destinati Time Protocol Info 

29006 59.0.0.85 89,0.0.210 2013-08-08 21:10:55.203550C TCP [TCP Zerowindow] srdp > ndmp [ACK] Seq-70777 ACck-33069928 Win-0 
29052 89.0.0.85 89.0.0.210 2013-08-08 21:10:55.244665( TCP [TCP Zerowindow] srdp > ndmp [ACK] Seq-70 Ack~33129788 Win-0 
29059 89.0.0.85 89.0.0.210 2013-08-08 21:10:55.693795( TCP [TCP Z' i ] dp > ndmp [ACK] Seq=70777 k=33135463 Win=i 
29105 B89.0.0.85 89.0.0.210 2013-08-08 21:10:55.714691( Tcp [TCcP Zerowindow] srdp > ndmp [ACK] Seq=70777 Ack=33195323 Win=0 
29113 89.0.0.85 89.0.0.210 2013-08-08 21:10;55.493590( TCP [TCP Zerowindow] srdp > ndmp [ACK] Seq=70777 Ack=33200998 Win=0 
29159 89.0.0.85 89.0.0.210 2013-08-08 21:;10:56.733638C TCcPp [TCP Zerowindow] srdp > ndmp [ACK] Seq=70777 Ack=33260858 Win=0 
29166 89.0.0.85 89.0.0.210 2013-08-08 21:10:56.914804( TCcPp [TCP Zerowindow] srdp > ndmp [ACK] seq-70777 ACK~33266533 Win-0 


2. 我 如 何在 包 里 看 出 发 送 窗口 的 大 小 呢 ? 


很 遗憾 ， 没 有 简单 的 方法 ， 有 了 时候 甚 至 完全 没有 办 法 。 因 为 ， 当 
发 送 窗 口 是 由 接收 帘 口 决定 的 时 候 ， 我 们 还 可 以 通过 “window size:” 的 
值 来 判断 。 而 当 它 由 网 络 因素 决定 的 上 时候， 事情 就 会 变 得 非常 复杂 

(下 篇 文章 将 会 详细 介绍 ) 。 大 多 数 时 候 ， 我 们 甚至 不 确定 哪个 因素 
在 起 作用 ， 只 能 大 概 推理 。 以 图 5 为 例 ， 接 收 方 声明 它 的 接收 窗口 等 于 
0， 那 接收 窗口 肯定 起 了 限制 作用 (因为 不 可 能 再 小 了 ) ， 因 此 可 以 大 
胆 地 判断 发 送 窗 口 就 是 0。 再 回顾 本 文 开 头 10.32.106.73 癌 10.32.106.103 
传 数据 的 两 个 例子 。 第 一 个 例子 中 ， 我 们 只 能 推理 出 10.32.106.73 的 发 
送 窗口 不 小 于 那 10 个 包 (39~48 号 ) 携带 的 数据 总 和 ， 但 具体 能 达到 
多 少 却 不 得 而 知 ， 因 为 窗口 还 没 用 完 时 读 操 作 就 完成 了 。 第 二 个 例子 
比较 容易 分 析 ， 因 为 传 了 两 个 包 就 停 下 来 等 确认 ， 所 以 发 送 窗口 是 那 
两 个 包 携 带 的 数据 量 2920 。 


3. 发 送 窗口 和 MSS 有 什么 关系 ? 


发 送 窗口 决定 了 一 口气 能 发 多 少 字 方 ， 而 MSS 决 定 了 这 些 字 届 要 
分 多 少 个 包 发 完 。 举 个 例子 ， 在 发 送 窗口 为 16000 字 节 的 情况 下 ， 如 果 
MSS 是 1000 字 节 ， 那 就 需要 发 送 16000/1000=16 个 包 ; 而 如 果 MSS 等 于 
8000， 那 要 发 送 的 包 数 就 是 16000/8000=2 了 。 


4. 发 送 方 在 一 个 窗口 里 发 出 n 个 包 ， 是 不 是 就 能 收 到 n 个 确认 包 ? 


不 一 定 ， 人 确认 包 一 般 会 少 一 些 。 由 于 TCP 可 以 累积 起 来 确认 ， 所 

以 当 收 到 多 个 包 的 时 候 ， 只 需要 确认 最 后 一 个 就 可 以 了 。 比 如 本 文中 

10.32.106.73 回 10.32.106.103 传 数据 的 第 一 个 例子 中 ， 客 户 端 用 一 个 包 
( 包 号 49) 确认 了 它 收 到 的 10 个 包 〈39~48 号 包 ) 。 


5. 经 常 听 说 “<TCP Window Scale” 这 个 概念 ， 它 究竟 和 接收 窗口 有 何 
关系 ? 


在 TCP 刚 被 发 明 的 时 候 ， 全 世界 的 网 络 带 宽 都 很 小 ， 所 以 最 大 接 
收 窗口 被 定义 成 65535 字 节 。 随 着 硬件 的 革命 性 进步 ，65535 字 节 已 经 
成 为 性 能 瓶颈 了 ， 怎 么 样 才能 扩展 昵 ? TCP 头 中 只 给 接收 窗口 值 留 了 
16 bit， 肯 定 是 无 法 突破 65535 〈216 -1) 的 。 

1992 年 的 RFC 1323 中 提出 了 一 个 解决 方案 ， 束 是 在 三 次 握手 时 ， 
把 自己 的 Window Scale 信 息 告 知 对 方 。 由 于 Window Scale 放 在 TCP 头 之 
外 的 Options 中 ， 所 以 不 需要 修改 TCP 头 的 设计 。Window Scale 的 作用 
是 癌 对 方 声明 一 个 Shift count， 我 们 把 它 作为 2 的 指数 ， 再 乘 以 TCP 头 
中 定义 的 接收 窗口 ， 就 得 到 真正 的 TCP 接 收 窗口 了 。 

以 图 6 为 例 ， 从 底部 可 以 看 到 10.32.106.159 告 诉 10.32.106.103 说 它 
的 Shift count 是 5。2” 等 于 32， 这 就 意味 着 以 后 10.32.106.159 声 明 的 接 
收 窗口 要 乘 以 32 才 是 真正 的 接收 窗口 值 。 


No. Source Destinstion Time Protocol Jnfo 
1 10-32-106.159 10.32.106.103 2013-08-13 Tcp 36541 > domain [syYN] Seq~-0 win~5840 Len=D MSS=-1450 SACK_PERM=1 T: 


10,32.106.159 10.32.106.103 2013-08-13 TCP 38541 > domain [ACK] Seq=1 Ack=1 Win=56565 Len=0 TSval=2711905588 
0.32.105,159 10.32.106.103 2013-08-13 DNS Standard query 0x3b7a A paddy_cifs.nas.com 
0.32.105,103 10.32.106.159 2013-08-13 ”DNS standard query response Ox3b7a A 10,32.106.77 


all 


© Frame 1: 74 bytes on wire (592 Dsh 74 bytes captured (a bits) 
3 Ethernet II, Src: Intel_d4:4d:ez2 (00:04:23:d4:4d:e2), Dst: Veaware al:568:41 (00:50:56:al:58:41) 
了 Internet protocol Version 4, Src; 10. 32.106.159 (10,32,. 106， 159), Dst; 10.32.106.103〈10, 32.106.103) 


Source port: 38541 (38541) 
Destination port: domain (53) 
[stream jndex; 9] 
Sequence number ; 0 (relative sequence number) 
Header lengrh: 40 byres 
国 
window size value: 5340 
[Calculated window size; 5840] 
本 Checksum; Ox68c7 [validation disabled] 
GB Dprions: (20 byres), Maximum seguent size, sack permitred, Timestamps, NO-Operation (NOF), window scale 
由 Maximum segqment size: 1460 bytes 
四 TCP SACK Permitted Option: True 
Timestamps; TSval 2711905588, Tsecr 0 
田 NO-Dperation (NOP) 
日 window scale: 5 《au1lrtply by 32) 
Kind: Window Scale 《3)} 
Length 
shift count; 了 
[multipitier: 32] 


图 6 


接 下 来 我 们 再 看 图 7 中 的 3 号 包 。10.32.106.159 声 明 它 的 接收 窗口 


为 “Window size value: 183”，183 乘 以 32 得 到 5856， 所 以 Wireshark 就 显 

示 出 “win=5856” 了 “。 要 注意 Wireshark 是 根据 Shift count 计 算出 这 个 结 

果 的 ， 如 果 抓 包 时 没有 抓 到 三 次 握手 ，Wireshark 就 不 知道 该 如 何 计 

算 ， 所 以 我 们 有 时候 会 很 英名 地 看 到 一 些 极 小 的 接收 窗口 值 。 还 有 些 

0 火 墙 识别 不 了 Window Scale， 因 此 对 方 无 法 获得 Shift count， 
导致 亚 重 的 性 能 问题 。 


No. Source Destinstion 


310.32.106.159 10.32.106.103 2013-03-13 TCP 38541 > domain [ACK] Seq=l ACk=l |Win~5956| 
4 10.32,106.159 10,32,105.103 2013-03-13 DNS Sstandard query Dx3b7a A paddy_cifs,.nas,cot 
5 10.32.106.103 10, 32,106.159 2013-08-13 DNS Standard query response 0Ox3b7a A 10.32.10 
* | mn 可 
mB Frame 3: 66 bytes on wire (528 bits), 66 byres captured (528 bits) 
Hm Ethernet II, Src; Intel_d4:;4d;ez (00:04:;23;d4;4d;e2), Dst; Vmware_al;58;41 (00;50;56;ai:58;4 
3 Internet Protocol Version 4, src: 10.32.106.159 (10,32.106.159), Dst: 10.32.106.103 (10.32.1 
SB Transmission Control Protocol, Src Port: 38541 (3B541), Dst Port: domain (53), Seq: 1, Ack: : 
Source porT: 38541 (38541) 
Destination port; domain (53) 
[stream index: 0] 
Sequence number: 1 (relative sequence number ) 
ACcknowledgment number: 1 (Crelative ack number) 
Header length; 5 bytes 
Flags: OxO10 (ACK) 
Window STze value: 183 
[calculared window size: 5856] 
DN i scaling Trror 3 


重 传 的 讲究 


阅读 本 文 之 前 ， 务 必 保 证 心情 愉快 ， 以 免 产 生 撕 书 的 冲动 ， 同 时 
准备 浓缩 咖啡 一 杯 ， 防 止 看 到 一 半 睡 着 了 。 因 为 这 部 分 内 容 是 TCP 中 
最 枯燥 的 ， 但 也 是 最 有 价值 的 。 

前 文 说 到 ， 发 送 方 的 发 送 窗口 是 受 接收 方 的 接收 窗口 和 网 络 影 响 
的 ， 其 中 限制 得 更 严 的 因素 就 起 决定 作用 。 接 收 窗口 的 影响 方式 非常 
简单 ， 只 要 在 包 里 用 “Win=” 告 知 发 送 方 束 可 以 了 。 而 网 络 的 影响 方式 
非常 复杂 ， 所 以 留 到 本 文 专门 介绍 。 

网 络 之 所 以 能 限制 改 送 窗口 ， 是 因为 它 一 口气 收 到 太 多 数据 时 就 
会 拥塞 。 拥 塞 的 结果 是 丢 包 ， 这 是 发 送 方 最 忌 悦 的 。 能 导致 网 络 拥塞 
的 数据 量 称 为 拥塞 点 ， 发 送 方 当然 希望 把 发 送 窗 口 控 制 在 拥塞 点 以 
下 ， 这 样 就 能 避免 拥塞 了 。 但 问题 是 连 网 络 设备 都 不 知道 自己 的 拥塞 
点 ， 即 便 知道 了 也 无 法 通知 发 送 方 。 这 种 情况 下 发 送 方 如 何 避 人 免 触 辜 
拥塞 点 呢 ? 
方案 1. 发 送 方 知道 自己 的 网 卡带 宽 ， 能 否 以 此 推测 该 连接 的 拥塞 点 ? 

不 能 。 因 为 发 送 方 和 接收 方 之 间 还 有 路 由 器 和 交换 机 ， 其 中 任何 
一 个 设备 都 可 能 是 瓶颈 。 比 如 发 送 方 的 网 卡 是 10Gbit/s， 而 接收 方 只 
1Gbit/s， 如 果 按 照 10Gbit/s 计 算 肯 定 会 出 问题 。 就 算 用 1Gbit/s 来 计算 也 
没有 意义 ， 因 为 网 络 珊 宽 是 多 个 连接 共享 的 ， 其 他 连接 也 会 占用 一 定 
带宽 。 
方案 2. 逐次 增加 发 送 量 ， 直 到 网 络 发 生 拥塞 ， 这 样 得 到 的 最 大 发 送 量 
能 定 为 该 连接 的 拥塞 点 吗 ? 

这 是 一 个 好 办 法 ， 但 没 这 么 简单 。 网 络 就 像 马 路 一 样 ， 有 的 时 候 
很 墙 ， 其 他 时 候 却 很 空 (北京 的 马路 除外 ) 。 所 以 拥塞 点 是 一 个 随时 
改变 的 动态 值 ， 当 前 试探 出 的 拥塞 点 不 能 代表 未 来 。 


难道 就 没有 一 个 完美 的 方案 吗 ? 很 遗憾 ， 还 真 的 没有 。 自 网 络 诞 
生 数 十 年 以 来 ， 涌 现 过 无 数 绝顶 聪明 的 工程 师 ， 束 是 没有 一 个 人 能 解 
决 这 个 问题 。 科 好 经 过 几 代 人 的 努力 ， 总 算 有 了 一 个 最 靠 谱 的 策略 。 
这 个 策略 就 是 在 发 送 方 维护 一 个 虚拟 的 拥塞 窗口 ， 并 利用 各 种 算法 使 
它 尽 可 能 接近 真实 的 拥塞 点 。 网 络 对 发 送 窗口 的 限制 ， 就 是 通过 拥塞 
窗口 实现 的 。 下 面 我 们 就 来 看 看 拥塞 窗口 如 何 维护 。 

1. 连接 刚刚 建立 的 时 候 ， 发 送 方 对 网 络 状况 一 无 所 知 。 如 果 一 口 
气 发 太 多 数据 就 可 能 遭遇 拥塞 ， 所 以 发 送 方 把 拥塞 窗口 的 初始 值 定 得 
很 小 。RFC 的 建议 是 2 个 、3 个 或 者 4 个 MSS， 具 体 视 MSS 的 大 小 而 定 。 

2， 如 果 发 出 去 的 包 都 得 到 确认 ， 表 明 还 没有 达到 拥塞 点 ， 可 以 增 
大 拥塞 窗口 。 由 于 这 个 阶段 发 生 拥 塞 的 概率 很 低 ， 所 以 增 速 应 该 快 一 
些 。RFC 建 议 的 算法 是 每 收 到 n 个 确认 ， 可 以 把 拥塞 窗口 增加 n 个 
MSS。 比如 发 了 2 个 包 之 后 收 到 2 个 确认 ， 拥 塞 窗口 就 增 大 到 2+2=4， 
接 下 来 是 4+4=8, 8+8=16..….. 这 个 过 程 的 增 速 很 快 ， 但 是 由 于 基数 低 ， 
传输 速度 还 是 比较 慢 的 ， 所 以 被 称 为 慢 启 动 过 程 。 

3， 慢 启动 过 程 持续 一 段 时 间 后 ， 拥 塞 窗 口 达 到 一 个 较 大 的 值 。 这 
时 候 传 输 速 度 比 较 快 ， 触 碰 拥 塞 点 的 概率 也 大 了 ， 所 以 不 能 继续 采用 
翻 倍 的 慢 启动 算法 ， 而 是 要 缓慢 一 点 。RFC 建 议 的 算法 是 在 每 个 往返 
时 间 增 加 1 个 MSS。 比 如 发 了 16 个 MSS 之 后 全 部 被 确认 了 ， 拥 塞 窗口 就 
增加 到 16+1=17 个 MSS， 再 接 下 去 是 17+1=18, 18+1=19...... 这 个 过 程 称 
为 拥塞 避免 。 从 慢 启 动 过 渡 到 拥塞 避免 的 临界 窗口 值 很 有 讲究 。 如 果 
之 前 发 生 过 拥塞 ， 就 把 该 拥塞 点 作为 参考 依据 。 如 果 从 来 没有 拥塞 过 
就 可 以 取 相对 较 大 的 值 ， 比 如 和 最 大 接收 窗口 相等 。 全 过 程 可 以 用 图 1 
表示 。 
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图 1 
无 论 是 慢 局 动 还 是 拥塞 避免 阶段 ， 拥塞 窗口 都 在 逐渐 增 大 ， 理 论 


上 一 定时 间 之 后 总 会 碰 到 拥塞 点 的 。 那 为 什么 我 们 平时 感觉 不 到 拥塞 
呢 ? 原因 有 很 多 ， 如 下 所 示 。 


“操作 系统 中 对 接收 窗口 的 最 大 设 定 多 年 没有 改动 ， 比 如 Windows 
在 不 局 用 “TCP window scale option” 的 情况 下 ， 最 大 接收 窗口 只 
64KB“。 而 近年 来 网 络 有 了 长 足 进 步 ， 很 多 环境 的 拥 蹇 点 远 在 64KB 以 
上 。 也 束 是 说 发 送 窗 口 已 经 被 限制 在 64KB 了， 永远 触 碰 不 到 拥堵 点 。 


“ 很 多 应 用 场景 是 交互 式 的 小 数据 ， 比 如 网 络 聊天 ， 所 以 也 不 会 
有 拥塞 的 可 能 。 


“ 在 传输 数据 的 时 候 如 采 采 用 同步 方式 ， 可 能 需要 的 窗口 非常 
小 。 比 如 采用 了 同步 方式 的 NFS 写 操作 ， 每 发 一 个 写 请 求 加 停 下 来 等 
回复 ， 而 一 个 写 请 求 可 能 只 有 4KB 。 


“ 即便 偶尔 发 生 拥塞 ， 持 续 时 间 也 不 足以 长 到 能 感受 出 来 ， 除 非 
抓 了 网 络 包 进行 数据 分 析 、 对 比 。 


拥塞 之 后 会 发 生 什么 情况 呢 ? 对 发 送 方 来 说 ， 殊 是 发 出 去 的 包 不 
像 往 利 一 样 得 到 确认 了 “。 不 过 收 不 到 确认 也 可 能 是 网 络 延迟 所 致 ， 所 
以 发 送 方 决定 等 每 一 小 段 时 间 后 再 判断 。 假 如 述 迟 收 不 到 ， 束 认定 包 
已 经 丢失 ， 只 能 重 传 了 。 这 个 过 程 称 为 超时 重 传 。 如 图 2 所 示 ， 从 发 出 
原始 包 到 重 传 该 包 的 这 段 时 间 称 为 RTO。RTO 


发 送 窗 口 =4 MSS 
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重任 
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图 2 


的 取 值 诺 有 讲究 ， 理 论 上 需要 几 个 公式 计算 出 来 。 根 据 多 一 道 公 
式 束 会 丢失 一 半 读 者 的 原理 ， 本 文 将 对 此 只 字 不 提 ， 我 们 只 需要 知道 
存在 这 么 一 段 时 间 殉 可 以 了 。 有 些 操 作 系 统 上 提供 了 调节 RTO 大 小 的 


参数 。 


重 传 之 后 的 拥塞 窗口 是 否 需 要 调整 呢 ? 非常 有 必要 ， 为 了 不 给 刚 
发 生 拥塞 的 网 络 雪 上 加 霜 ，RFC 建 议 把 拥塞 窗口 降 到 1 个 MSS， 然 后 再 
次 进入 慢 局 动 过 程 。 这 一 次 从 慢 局 动 过 渡 到 拥塞 避免 的 临界 窗口 值 束 
有 参考 依据 了 。Richard Stevens 在 《TCP/IP Tllustrated》 中 把 临界 窗口 
值 定 为 上 次 发 生 拥塞 时 的 发 送 窗 口 的 一 半 。 而 RFC 5681 则 认为 应 该 是 
发 生 拥塞 时 没 被 确认 的 数据 量 的 2， 但 不 能 小 于 2 个 MSS。 比 如 说 发 
了 19 个 包 出 去 ， 但 只 有 前 3 个 包 收 到 确认 ， 那 么 临界 窗口 值 承 被 定 为 后 
16 个 包 携 带 的 数据 量 的 1/2。 我 没有 细 究 过 为 什么 Stevens 和 RFC 会 有 这 
个 分 歧 ， 不 过 Stevens 是 在 1999 年 意外 去 世 的 ， 而 RFC 5681 直 到 2009 才 
发 布 ， 也 许 是 Stevens 在 书 中 引用 了 更 早 版 本 的 RFC。 虽 然 Stevens 是 我 
最 喜欢 的 技术 人 作家， 但 在 这 个 细 广 上 我 认为 RFC 5681 更 加 科学 。 

图 3 显示 了 发 生 超时 重 传 时 拥塞 窗口 的 变化 。 
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图 3 


不 难 想象 ， 超 时 重 传 对 传输 性 能 有 严重 影响 。 原 因 之 一 是 在 RTO 
阶段 不 能 传 数据 ， 相 当 于 痕 费 了 一 段 时 间 ; 原因 之 二 是 拥塞 窗口 的 急 
剧 减 小 ， 相 当 于 接 下 来 传 得 慢 多 了 。 以 我 的 个 人 人 经验， 即便 是 万 分 之 
一 的 超时 重 传 对 性 能 的 影响 也 非 同 小 可 。 我 们 在 Wireshark 中 如 何 检查 


重 传情 况 呢 ? 单 击 Analyze-->Expert Info Composite 菜 单 ， 就 能 在 Notes 
标签 看 到 它们 了 ， 如 图 4 所 示 。 点 开 + 号 还 能 看 到 具体 是 哪些 包 发 生 了 
重 传 。 


| 
国 Wireshark: 997214 Expert Infos . 四 We 和 mm 一 


[go 1 (996644) |wamingz 3 (48)| Notes: 2 90] |Chats: 1 (432) | Details: 997214 


Group 4 Protocol 4 Summary 4 Count 
Duplicate ACK (为 ) 


图 4 


图 5 是 我 处 理 过 的 一 个 真实 案例 。 我 从 Notes 标 签 中 看 到 Seq 号 为 
1458613 的 包 发 生 了 超时 重 传 。 于 十 用 该 Seq 写 过 滤 出 原始 包 和 重 传 包 
(只 有 在 发 送 方 抓 的 包 才 看 得 到 原始 包 ) ， 发 现 RTO 况 长 达 1 秒 钟 以 
上 上。 这 对 性 能 的 影响 实在 太 大 了 ， 季 好 这 人 台 发 送 方 提供 了 缩小 RTO 的 
参数 ， 调 整 后 性 能 提高 了 不 少 。 当 然 治标 又 治本 的 方式 是 找 出 瓶颈 ， 
彻底 消除 重 传 。 


| Expression,, Clear Apphy 


o, Time Source 

115D 2011-12-06 22:55:24.264298 128.247,49.33 128.247,140.54 

1173 2011-12-06 22:;55:21.369766 128.247,49. 33 129.247,140.94 
图 5 


有 时 候 拥 塞 很 轻微 ， 只 有 少量 的 包 丢 失 。 还 有 些 偶然 因素 ， 比 如 
校准 码 不 对 的 时 候 ， 会 导致 单个 丢 包 。 这 两 种 丢 包 症状 和 严重 拥 赛 时 
不 一 样 ， 因 为 后 续 有 包 能 正常 到 达 。 当 后 续 的 包 到 达 接 收 方 时 ， 接 收 
方 会 发 现 其 Seq 号 比 期 望 的 大 ， 所 以 它 每 收 到 一 个 包 束 Ack 一 次 期 望 的 
Seq 号 ， 以 此 提 柄 发 送 方 重 传 。 当 发 送 方 收 到 3 个 或 以 上 重复 确认 

(Dup Ack) 时 ， 就 意识 到 相应 的 包 已 经 丢 了 ， 从 而 立即 重 传 它 。 这 


个 过 程 称 为 快速 重 传 。 之 所 以 称 为 快速 ， 是 因为 它 不 像 超时 重 传 一 样 
需要 等 竺 一 段 时 间 。 

图 6 是 我 处 理 过 的 男 一 个 真实 案例 。 客 户 问 发 送 了 1182、 as 、 
1185、1187、1188 共 5 个 包 ， 其 中 1182 在 路 上 丢 了。 幸好 到 达 服 务 
的 4 个 包 触 发 了 4 个 Ack=991851， 所 以 客户 端 意识 到 丢 包 了 ， 于 是 在 包 。 
号 1337 快 速 重 传 了 Seq=991851 
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为 什么 要 规定 竣 满 3 个 呢 ? 这 是 因为 网 络 包 有 了 时 会 乱 序 ， 乱 序 的 包 
一 样 会 触发 重复 的 Ack， 但 是 为 了 乱 序 而 重 传 没 有 必要 。 由 于 一 般 乱 
序 的 距离 不 会 相差 太 大 ， 比 如 2 号 包 也 许 会 跑 到 4 号 包 后 面 ， 但 不 太 可 
能 跑 到 6 号 包 后 面 ， 所 以 限定 成 3 个 或 以 上 可 以 在 很 大 程度 上 避免 因 乱 
序 而 和 触发 快速 重 传 。 如 图 7 中 的 左 图 所 示 ，2 号 包 的 丢失 次 满 了 3 个 Dup 
Ack， 所 以 触发 快速 重 传 。 而 右 图 的 2 号 包 跑 到 4 号 包 后 面 ， 却 因为 旋 
不 满 3 个 Ack 而 没有 触发 快速 重 传 。 
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如 果 在 拥塞 避免 阶段 发 生 了 快速 重 传 ， 是否 需 要 像 发 生 超时 重 传 
一 样 处 理 拥塞 窗 口 呢 ? 完全 没有 必要 一 既然 后 续 的 包 都 到 达 了 ， 说 明 
网 络 并 没有 严重 拥塞 ， 接 下 来 传 慢 点 就 可 以 了 。 对 此 Richard Stevens 
和 RFC 5681 的 建议 也 略 有 不 同 。 后 者 认为 临界 窗口 值 应 该 设 为 发 生 拥 
塞 时 还 没 被 确认 的 数据 量 的 1/2 (但 不 能 小 于 2 个 MSS) 。 然 后 将 拥塞 
窗口 设置 为 临界 窗口 值 加 3 个 MSS， 继 续 保 留 在 拥塞 避免 阶段 。 这 个 过 
程 称 为 快速 恢复 ， 其 拥塞 窗口 的 变化 大 概 可 以 用 图 8 表示 。 


第 一 次 拥塞 
的 临界 窗口 
第 二 次 拥塞 
的 临界 窗口 
慢 启动 


一 于 


时 间 


图 8 


不 知道 你 是 否 想到 过 一 个 更 复杂 的 情况 一 很 多 时 候 丢 的 包 并 不 只 
一 个 。 比 如 图 9 中 2 号 和 3 号 包 丢 失 ， 但 1、4、5、6、7、8 号 都 到 达 了 接 
收 方 并 和 触发 Ack 2。 对 于 发 送 方 来 说 ， 只 能 通过 Ack 2 知道 2 号 包 丢 失 
了 ， 但 并 不 知道 还 有 哪些 包 丢 失 。 在 重 传 了 2 号 包 之 后 ， 接 下 来 应 该 传 
哪 一 个 呢 ? 


丢 包 触发 快速 重 传 


we ed ta 一 | 


发 送 方 接收 方 


图 9 


方案 1. 不 管 三 七 二 十 一 ， 把 3、4、5、6、7、8 号 等 6 个 包 都 重 传 
一 遍 。 这 ss 但 是 丢 一 个 包 的 后 果 就 是 多 个 包 被 重 传 ， 
效率 较 低 。 早 期 的 TCP 协 议 就 是 这 样 处 理 的 。 


方案 2. 接收 方 收 到 重 传 过 来 的 2 号 包 之 后 ， 会 回复 一 个 Ack 3， 
此 发 送 方 可 以 推理 出 3 号 包 也 丢 了 ， 把 它 也 重 传 一 裔 。 当 接收 方 收 到 重 
传 的 3 号 包 之 后 ， 因 为 丢 包 的 窒 竹 都 补 满 了 ， 所 以 回复 一 个 Ack 9， 从 
此 发 送 方 就 可 以 传 新 的 包 〈 包 号 9、10、11、..……. ) 了 。 这 个 方案 称 为 
NewReno， 由 RFC 2582 和 RFC 3782 定 义 。NewReno 在 本 例 中 看 上 去 很 
里 想 ， 但 我 们 可 以 想见 当 丢 包 量 很 大 的 时 候 ， 束 需要 花费 多 个 RTT 
| 来 重 传 所 有 丢失 的 包 。 
方案 3. 接收 方 在 Ack 2 号 包 的 时 候 ， 顺 便 把 收 到 的 包 号 告诉 发 送 
方 。 所 以 这 些 Ack 包 应 该 是 这 样 的 : 
收 到 4 号 包 时 ， 告 诉 发 送 方 : “我 已 经 收 到 4 号 ， 请 给 我 2 号 。” 
收 到 5 号 包 时 ， 人 告诉 发 送 方 : “我 已 经 收 到 4、5 号 ， 请 给 我 2 号 。” 
收 到 6 号 包 时 ， 告 诉 发 送 方 : “我 已 经 收 到 4、5、6 号 ， 请 给 我 2 


ee 


因此 发 送 方 对 丢 包 组 入 了 如 指 党， 午 快 速 重 传 了 2 号 包 之 后 ， 它 可 
以 接着 传 3 号 ， 然 后 再 传 9 号 包 。 这 个 非常 直观 的 方案 称 为 SACK， 由 
RFC 2018 定 义 。 

图 10 是 在 真实 环境 中 抓 到 的 SACK 实 例 。 把 “SACK=992461- 
996175” 和 “Ack=9918512? 两 个 条 件 综 合 起 来 ， 发 送 方丈 知道 992461 一 
996175 已 经 收 到 了 ， 而 前 面 的 991851~992460 反 而 没收 到 。 


No. ”Source 
1334 10.114,140,.100 10.114,130,100 人 01-15 09;55;29, Bi Tep Se Dup AEK 1331#1] ddf-f 一 -1> 和 [Ack] Seq-1105 ACk-991851 
区 ee ee Es 二 ee ee a 100 二 二 09:56; - 和 TEP [rcp 让 ACEK 2 ddi-tcp-1 > 一 一 Seq-1105 ee ee 
0. .140. 0. .130.100 3-01-15 09:56:29, Tp [Tp ACK 1331#3] er > EE ACK] Seq=1105 


P 
K; 992461-996175 

left edge = 992461 (relative) 
right edqe = 996175 (relative) 


图 10 


本 文 的 信息 量 有 点 大 ， 你 也 许 需要 一 些 时 间 来 消化 它 。 有 些 部 分 
一 时 理解 不 了 也 无 妨 ， 即 便 只 记 住 本 文 导出 的 几 个 结论 ， 在 工作 中 也 
是 很 有 用 的 。 


。 没 有 拥塞 时 ， 发 送 窗 口 越 大 ， 性 能 越 好 。 所 以 在 带宽 没有 限制 
的 条 件 下 ， 应 该 尽量 增 大 接收 窗口 ， 比 如 启用 Scale Option (Windows 
上 可 参考 KB 224829) 。 


* 如 采 经 第 发 生 拥 塞 ， 那 限制 发 送 窗口 反而 能 提高 性 能 ， 因 为 即 
便 万 分 之 一 的 重 传 对 性 能 的 影响 部 很 大 。 在 很 多 操作 系统 上 可 以 通过 
限制 接收 窗口 的 方法 来 减 小 发 送 窗口 ，Windows 上 同样 可 以 参考 KB 
224829 。 


“ 超时 重 传 对 性 能 影响 最 大 ， 因 为 它 有 一 段 时 间 (RTO) 没有 传输 
任何 数据 ， 而 且 拥 塞 窗 口 会 被 设 成 1 个 MSS， 所 以 要 尽量 避免 超时 重 
传 * 


* 快速 重 传 对 性 能 影响 小 一 些 ， 因 为 它 没 有 等 得 时 间 ， 而 且 拥 塞 
窗口 减 小 的 幅度 没 那 么 大 。 


。SACK 和 NewReno 有 利于 提高 重 传 效 率 ， 提 高 传输 性 能 。 


* 丢 包 对 极 小 文件 的 影响 比 大 文件 严重 。 因 为 读 写 一 个 小 文件 需 
要 的 包 数 很 少 ， 所 以 丢 包 时 往往 次 不 满 3 个 Dup Ack， 只 能 等 待 超时 重 
传 了 。 而 大 文件 有 较 大 可 能 触发 快速 重 传 。 下 面 的 实验 显示 了 同样 的 
丢 包 率 对 大 小 文件 的 不 同 影响 : 图 11 中 的 test 是 包含 很 多 小 文件 的 目 
录 ， 而 图 12 的 hi 是 一 个 大 文件 。 发 生 丢 包 时 前 者 耗 时 增加 了 7 伴 多 ， 而 
后 者 只 增加 了 不 到 4 倍 。 


图 12 


延迟 确认 与 Nagle 算 法 


不 知道 前 两 篇 的 内 容 有 没有 令 你 感到 头疼 ? 六 好 ， 这 一 篇 终于 可 
以 讨论 跟 TCP 窗 口 无 关 的 话题 了 。 

发 送 窗口 一 般 只 影响 大 块 的 数据 传输 ， 比 如 读 写 大 文件 。 而 频繁 
交互 的 小 块 数据 不 太 在 平 发 送 窗 口 的 大 小 ， 因 为 发 包 量 本 来 就 少 。 日 
常生 活 中 这 样 的 场景 很 多 ， 比 如 用 Putty 之 类 的 SSH 客 户 端 连 上 一 台 
Linux 服 务 器 ， 然 后 随便 输入 一 些 字 符 ， 在 网 络 上 就 交互 了 很 多 小 块 数 
据 了 。 当 网 络 状况 良好 时 ， 我 们 会 感觉 一 输入 字符 束 立 即 显示 出 来 。 
究 其 原因 ， 是 因为 每 输入 一 个 字符 就 被 打 成 TCP 包 传 到 服务 器 上 ， 然 
后 服务 器 也 随即 进行 回复 。 

假如 把 这 个 过 程 的 包 抓 下 来 ， 会 看 到 很 多 小 包 频 党 来 往 于 客户 端 
和 服务 器 之 间 。 这 种 方式 其 实 是 很 低 效 的 ， 因 为 一 个 包 的 TCP 头 和 了 


头 至 少 束 40 字 节 ， 而 携带 的 数据 却 只 有 一 个 字符 。 这 就 像 快 递 员 开 着 
大 货车 去 送 一 个 小 包 碍 一 样 浪 费 。 

我 做 了 一 个 实验 来 研究 这 个 现象 。 先 在 Putty 上 绥 慢 地 输入 3 个 字 
从“j”， 每 次 按键 的 间 阳 在 300 喀 秒 以 上 ， 这 时 候 Wireshark 抓 到 了 前 9 个 
包 。 接 着 我 快速 敲 击 键盘 ，Wireshark 义 抓 了 后 面 的 包 ，Wireshark 截 屏 
如 图 1 所 示 。 


11 2. 200.4 10, 32.23.5 2013-09-08 11:04:32.971379 E ed requestr packet len=52 
210,32,23.55 10,32.200.43 2013-09-08 11:04:33.120153 SSH Encrypted response packet len-52 
3 10. 32.200.43 10,32.23.55 2013-09-08 11:04:33.335007 CF 64839 SS [acK] seq=5 Ck=53 wi 


Desbnetion Time Protocol Info 
1 5H 


4 10.32.200.4 | 0 09 11:04:33. 50 5SH Encrypted request packet 1enm-5 
5 10,32.23.55 10. 32.200.43 2013-09-D8 11:04:33.5650446 ssH ENCcrypted response packet len=52 
l 00,43 ] 和 2 "0 09 8 11:04:33 49 TCF 64839 [Lact eq=-105 Ack=105 % 
7 10.32.200.43 10,32.23.55 2013-09-08 11:04:33.980437 ssH Encryprted request packer len=52 
8 10.32.23.55 10,32.200.43 2013-09-08 11:04:34.137506 SSH Encrypted response packet len-52 
9 1 2. 200 l 2- 23.89 013-09-05 i1:04:34.348942 CP 64839 ssh [Ac eq=1 k=157 
] JW ,4 1 上 站 U 0U9 11:04: 34.469409 5SH E F d { t ac t lere.5 
11 10.32.23.55 10,32.200.43 2013-09-08 ii1:04:34.617954 ssH Encrypted response packet len=52 
10.32. 200.43 1 0 )9 11:04: 了 .55921 5SH “Encrypted renuest packet 1en-5 


13 10.32.200.4 1 32.2 5 2013-09-08 11:04:34.68925 
4 5 "0 09 ) 


14 10.32.2 4 10. 32.23.3535 2013 9 8 11:( 9 55SH 上 4 
15 10. 32.200.43 10.32.23.55 2013-09-08 11:04:34.769106 ssH Encrypte 
1 2.200.4 1 2.23.55 ?01 11 3。769. el 
1 43 10.32.23.5 2013-09-08 11:;04:;3 7977 ed 
11 ed 


18 10.32.200.43 10,32.23.5 2013-09-08 :34.779948 S55SH Encrypted request packet len=52 
19 10,. 32.23.55 10.32.200.43 2013-09-08 11:04:34.807882 SsH Encrypted response packet len=52 
20 10,32.23.55 10,32.200.43 2013-09-08 11:04:34.B35032 S55H Encrypted response packet len-52 


图 1 


前 3 个 包 的 解说 如 下 。 

客户 端 : “我 想 给 你 发 个 加 密 后 的 字符 宁 。” 

服务 器 : “我 收 到 字符 宁 了 ， 你 可 以 把 它 显 示 出 来 。” 

客户 端 : “知道 了 。” 

接 下 来 的 4、5、6 号 包 ， 以 及 7、8、9 号 包 也 是 一 样 的 情况 

我 的 客户 端 10.32.200.43 放 在 上 海 ， 而 服务 器 10.32.23.55 位 于 悉 
尼 ， 它们 之 间 的 往返 时 间 大 概 是 150 毫 秒 。 由 于 这 些 包 是 在 客户 端 收集 
的 ， 所 以 1 号 包 和 2 号 包 相 差 150 室 秒 是 正常 现象 。 奇 怪 的 是 客户 端 收 到 
2 号 包 之 后 ， 竟 然 等 待 了 大 约 200 毫 秒 才 发 出 3 号 包 。 本 来 是 1 训 秒 之 内 
可 以 完成 的 事 ， 为 什么 要 等 这 么 久 呢 ? 再 看 看 5 号 和 6 号 之 间 ， 以 及 8 号 
和 9 号 之 间 ， 也 是 大 概 相 差 200 秒 。 

这 其 实 就 是 TCP 处 理 交 互 式 场景 的 策略 之 一 ， 称 为 延迟 确认 。 该 
策略 的 原理 是 这 样 的 : 如 果 收 到 一 个 包 之 后 暂时 没什么 数据 要 发 给 对 
方 ， 那 就 延迟 一 段 时 间 〈 在 windows 上 默认 为 200 毫 秒 ) 再 确认 。 假 如 
在 这 段 时 间 里 恰好 有 数据 要 发 送 ， 那 确认 信息 和 数据 就 可 以 在 一 个 包 


里 发 出 去 了 。 第 12 号 包 就 恰好 符合 这 个 策略 ， 客 户 端 收 到 11 号 包 之 
后 ， 等 了 41 毫 秒 左右 时 我 又 输入 一 个 字符 。 结 果 这 个 字符 和 对 11 号 包 
的 确认 信息 就 一 起 装 在 12 号 包 里 了 。 

延迟 确认 并 没有 直接 提高 性 能 ， 它 只 是 减少 了 部 分 确认 包 ， 减 轻 
了 网 络 负 担 。 有 时 候 延迟 确认 反而 会 影响 性 能 。 微 软 的 KB 328890 提 
供 了 关闭 延迟 确认 的 步骤 。 我 在 另 一 台 客 户 端 10.32.200.131 上 实施 这 
些 步 骤 后 ， 结 果 如 图 2 所 示 ， 果 然 不 到 1 毫秒 就 发 确认 了 (参见 6 号 包 和 
7 号 包 的 时 间 差 ) 。 


OUICE Destination Time Protocol Info 


,32,.200.131 10. 32.23.55 2013-09-09 06:49:56.144417 55H Encrypted request packet len=52 
.32,23.55 10.32.200.1:2013-09-09 06:49:56.293037 SsH Encrypted response packet len=52 
sh [ACK] Seq=105 Ack=105 


.32.23.55 10.32.200.1:2013-09-09 06:49:57.173081 SsH Encrypted response packet len-52 


10 
10 
0 
10.32. 200,.131 10. 32.23.55 2013-09-09 06:49:57.024393 ssH Encrypted request packet len=5)2 
10 yp resp 
10.32.200,131 10. 32.23.55 2013-09-09 06:49:57.173200 TCP metasage > ssh [ACK] Seq=157 ACk=157 


8 
9 
10 


图 2 


仔细 看 图 1 和 图 2， 会 发 现 每 个 SSH Request 都 是 52 字 节 ， 这 表明 它 
只 包含 了 一 个 加 密 的 字符 。 虽 然 在 图 1 的 12 号 到 18 号 包 之 间 的 100 毫 秒 
里 〈 还 不 到 一 个 往返 时 间 ) ， 我 一 共 输 入 了 7 个 字符 ， 但 这 些 字符 也 被 
逐个 打 成 小 包 了 。 能 不 能 设计 一 个 缓冲 机 制 ， 把 一 个 往返 时 间 里 生成 
的 小 数据 收集 起 来 ， 合 并 成 一 个 大 包 呢 ?Nagle 算 法 就 实现 了 这 个 功 
能 。 这 个 算法 的 原理 是 : 在 发 出 去 的 数据 还 没有 被 确认 之 前 ， 假 如 又 
有 小 数据 生成 ， 那 就 把 小 数据 收集 起 来 ， 读 满 一 个 MSS 或 者 等 收 到 确 
认 后 再 发 送 。 图 3 是 我 启用 Nagle 之 后 的 新 实验 ， 第 一 个 包 把 我 输入 的 
第 一 个 字符 发 出 去 了 。 在 收 到 确认 包 之 前 的 150 毫 秒 里 ， 我 又 输入 6 个 
字符 。 这 6 个 字符 并 没有 被 逐个 发 送 ， 而 是 被 收集 起 来 ， 等 收 到 2 号 包 
之 后 ， 从 3 号 包 里 一 起 发 送 。 这 就 是 为 什么 3 号 包 携 带 的 数据 长 度 是 312 
字 节 。 
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Time 
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2013-09-08 10:43: 
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48. 057854 
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图 3 
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jnfo 

Encrypted request packet len=52 
Encrypted response packet len=52 
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Encrypted response packet len=52 
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Encrypted response packet len=52 
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和 延迟 确认 一 样 ，Nagle 也 没有 直接 提高 性 能 ， 局 用 它 的 作用 只 是 


提高 传输 效率 ， 减 轻 网 络 负 担 。 在 某 些 场合 ， 比 如 和 延迟 确认 一 起 使 


用 时 甚至 会 降低 性 能 。 微 软 也 有 篇 KB 指导 如 何 关 闭 Nagle， 但 是 一 般 
没有 这 个 必要 ， 原 因 之 一 是 很 多 软件 已 经 默认 关闭 Nagle 了 “。 比 如 打开 
Putty， 到 “Connection” 选 项 里 可 见 “Disable Nagle's algorithm” 默 认 残 是 
选中 的 ， 如 图 4 所 示 。 
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图 4 


我 启用 Nagle 的 男 一 个 原因 是 ， 很 多 高 手 说 自己 解决 过 Nagle 所 导 
致 的 问题 。 我 希望 自己 也 能 页 上 一 回 ， 这 样 以 后 伪装 成 高 手 时 惑 有 谈 
资 了 ， 可 惜 目前 为 止 还 没 机 会 磁 到 。 我 曾经 拿 到 过 图 5 所 示 的 一 个 包 ， 
据说 是 Nagle 导 致 了 写 文件 很 慢 。 之 所 以 定位 到 Nagle， 是 因为 客户 端 
收 到 “SetInfo Response” 之 后 ， 要 等 上 100 多 坚 秒 再 发 送 下 一 个 “SetInfo 
So 9 他 们 0 RE 


Destinalson Time Pretoa ol :lnfo 


D Request FILE_INFO/SMB2_FILE_ALL ION_IN 
310.n1. 9 0.1 4 2013-09-03 14:5 53: og S53104 Se2 Serinfo nesponse Ps | 
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S10. 11.9， -10 2013-09-03 14: 53: 09.801326 sve? serirfo Response Do 
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图 5 


我 一 开始 非常 高 兴 ， 以 为 终于 碰 到 一 回 了 。 仔 细 一 看 非常 失望 ， 
因为 这 个 钙 状 并 不 符合 Nagle 的 定义 。 Nagle7e 人 以 全 十 放 吧 
集 数据 ， 一 旦 收 到 确认 就 立即 把 数据 发 出 去 ， 而 不 是 ee 
再 发 。 如 果 说 这 个 现象 是 延迟 确认 还 更 接近 一 点 ， 但 也 不 正确 。 

际 是 应 用 层 的 一 个 bug 导 致 的 ， 次 了 个 SMB 版 本 后 问题 就 消 拓 了 ， 
束 这 样 错 失 了 一 次 伪装 成 高 手 的 机 会 。 


百家争鸣 


离职 不 久 的 老 同 事 给 我 发 来 一 条 短信 : “ 阿 满 ， 能 否 解释 一 下 
Westwood 和 Vegas 等 TCP 算 法 的 差别 ? ” 

这 个 问题 让 我 顾 感 意外 。 真 是 士 别 三 日 ， 当 乔 目 相 看 ， 怎 么 才 跳 
槽 没 几 天 束 研 究 到 如 此 高 端详 气 上 档次 的 方向 了 ? 不 过 转念 一 想 ， 假 
如 新 工作 是 设计 一 个 网 络 平台 ， 那 还 是 很 有 必要 知道 这 些 知识 的 ， 
为 不 同 的 场景 适合 不 同 的 TCP 算 法 。 而 要 了 解 这 些 算法 ， 就 得 从 TCP 
最 原始 的 设计 开始 讲 起 。 最 早 系统 性 地 羡 述 了 慢 局 动 、 拥 罕 避 人 免 和 快 


速 重 传 等 算法 的 并 非 RFC， 而 是 1993 年 年 底 出 版 的 奇 书 《TCP/IP 
Tllustrated, Volume 1: The Protocols》， 作 者 是 我 以 前 提 到 过 的 一 位 教父 
级 人 物 一 一 Richard Stevens。 直到 1997 年 ， 这 本 书 中 的 内 容 才 被 复制 到 
了 RFC 2001 中 。 我 第 一 次 读 到 这 些 算法 时 拍案 叫绝 ， 完 全 不 知道 还 有 
优化 之 处 。 比 如 书 中 介绍 了 一 个 叫 “ 临 界 窗 口 值 ”* 的 概念 ， 当 拥塞 窗口 
处 于 临界 窗口 值 以 下 时 ， 就 用 增 速 较 快 的 慢 启 动 算 法 ， 当 拥塞 窗口 升 
到 临界 窗口 值 以 上 时 ， 则 改 用 增 速 较 慢 的 拥塞 避免 算法 。 从 图 1 可 见 ， 
临界 窗口 前 后 的 斜率 有 明显 的 变化 。 这 个 机 制 有 利于 拥塞 窗口 在 最 短 
时 间 到 达 高 位 ， 然 后 保持 尽 可 能 长 的 时 间 才 触 磁 拥 塞 点 ， 思 路 还 是 很 
科学 的 。 


一 ko 和 


时 间 


图 1 


那 临界 窗口 应 该 如 何 取 值 才 合 理 呢 ? 我 能 想到 的 ， 束 是 在 市 宽大 
的 环境 中 取得 大 一 些 ， 在 市 宽 小 的 环境 中 取得 小 一 些 。RFC 2001 也 是 
这 样 建议 的 ， 它 把 临界 窗口 值 定 义 为 发 生 丢 包 时 拥塞 窗口 的 一 半 大 
小 。 我 们 可 以 想象 在 市 冤 大 的 环境 中 ， 发 生 丢 包 时 的 拥塞 窗口 往往 也 


比较 大 ， 所 以 临界 窗口 值 目 然 会 随 之 加 大 。 可 以 用 下 面 的 例子 来 加 以 
说 明 。 

图 2 在 拥塞 窗口 为 16 个 MSS 时 发 生 了 丢 包 ， 而 图 3 在 拥塞 窗口 为 8 个 
MSS 时 束 丢 包 了 ， 说 明 当 时 图 2 中 的 带宽 很 可 能 比 图 3 中 的 大 。 根 据 
RFC 2001， 我 们 希望 授 下 来 图 2 的 拥塞 窗口 能 快速 恢复 到 临界 窗口 值 
16/2=8 个 MSS， 然 后 再 缓慢 增加 ; 也 项 望 图 3 中 的 拥塞 窗口 能 快速 恢复 
到 临 弄 窗口 值 82=4 个 MSS， 然 后 再 缓慢 增加 。 这 样 做 的 结 采 基 是 图 2 
的 拥 春 窗口 比 图 3 的 增长 得 更 快 ， 更 配 得 起 它 的 市 宽 。 以 上 这 些 分 析 ， 
看 上 去 很 有 道理 吧 ? 


”拥塞 窗口 为 16 个 MSS 时 


拥塞 窗口 为 8 个 MSS 时 


oo = 司 上 


发 送 方 接收 方 


有 些 聪明 人 残 不 认同 以 上 分 析 。 比 如 有 一 位 叫 Saverio Mascolo 的 
意大利 人 看 了 这 个 算法 之 后 ， 觉 得 太 简 单 粗 骏 了 “。 真 实 环境 的 丢 包 状 
况 比 上 面 的 例子 复杂 得 多 ， 比 如 在 相同 大 小 的 拥塞 窗口 中 ， 有 时候 丢 
包 的 比例 大 ， 有 时候 丢 包 的 比例 小 ， 统 一 按照 拥塞 窗口 的 一 半 取 值 是 
不 理想 的 。 我 们 可 以 看 看 下 面 这 个 例子 。 

图 4 和 图 5 在 发 生 丢 包 时 的 拥塞 窗口 都 是 16 个 MSS， 不 过 图 4 丢 了 4 
个 包 ， 而 图 5 丢 了 12 个 。 如 果 按 照 RFC 2001 的 算法 ， 两 边 的 临界 窗口 
值 都 应 该 被 定义 为 16/2=8 个 MSS。 这 显然 是 不 合理 的 ， 因 为 图 4 丢 了 4 
个 包 ， 图 5 丢 了 12 个 ， 说 明 当 时 图 4 的 融 宽 很 可 能 比 图 5 的 大 ， 应 该 把 临 
界 窗口 值 设 得 比 图 5 的 大 才 对 。 归纳 一 下 ， 理 想 的 算法 应 该 是 先 推算 出 
有 多 少 包 已 经 被 送 达 接 收 方 ， 从 而 更 精确 地 估算 发 生 拥 塞 时 的 佛 宽 ， 
最 后 再 依据 带宽 来 确定 狐 的 拥塞 窗口 。 那 么 如 何 知道 哪些 包 被 送 达 了 
呢 ? 熟悉 TCP 协 议 的 读者 应 该 想到 了 一 可 以 根据 接收 方 回 应 的 Ack 来 推 
算 。 于 是 不 安 分 的 Saverio 先 生 依据 这 个 理论 提出 了 Westwood 算 法 ( 当 
然 实施 起 来 不 是 我 说 的 这 么 简单 ) ， 后 来 又 升级 为 Westwood+。 


“拥塞 窗口 为 16 个 MSS 时 


发 送 方 接收 方 


拥塞 窗口 为 16 个 MSS 时 
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从 设计 理念 就 可 以 看 出 ， 当 丢 包 很 轻微 时 ， 由 于 Westwood 能 估算 
出 当时 拥塞 并 不 严重 ， 所 以 不 会 大 幅度 减 小 临界 窗口 值 ， 传 输 速 度 也 
能 得 以 保持 。 在 经 常 发 生 非 拥塞 性 丢 包 的 环境 中 (比如 无 线 网 络 ) ， 
Westwood 最 能 体现 出 其 优势 。 目 前 天 于 Westwood 的 研究 有 很 多 ， 我 其 
至 能 找到 不 少 中 文 论文 ， 实际 中 也 有 应 用 ， 比 如 部 分 Linux 版 本 就 用 到 
了 它 。 我 一 向 有 “人 肉 ?IT 界 牛人 的 习惯 ，S$averio 移 生 当然 也 在 列 。 不 
过 当 我 打开 他 的 主页 时 ， 发 现 都 是 意大利 文 ， 只 好 作罢 。 

这 里 要 插播 一 个 有 趣 的 情况 。RFC 2581 也 同样 改进 了 RFC 2001 中 
天 于 临界 窗口 值 的 计算 公式 ， 把 原先 “拥塞 窗口 的 一 半 ” 改 为 FlightSize 
的 一 半 ， 其 中 FlightSize 的 定义 是 “The amount of data that has been sent 
but not yet acknowledged (已 发 送 但 未 确认 的 数据 量 ) 。” 如 果 根 据 这 
个 定义 ， 我 们 会 慰 闸 地 算出 图 4 的 临界 窗口 值 为 4/2=2 MSS， 而 图 5 的 
临界 窗口 值 为 12/2=6 MSS。 这 跟 * 图 4 应 该 大 于 图 5” 的 期 望 是 完全 相反 
的 ， 难 道 RFC 2581 有 错误 ? 这 可 是 经 过 无 数 人 检验 过 的 著名 文档 。 我 
曾经 志 起 不 安 地 把 这 个 问题 发 给 过 几 位 国外 同行 ， 说 “Could you 
confirm if there is any problem with my brain or RFC 2581?2” 笠 好 得 到 的 
答复 大 多 认为 我 的 大 脑 是 正常 的 ， 他 们 也 认为 这 个 算法 有 问题 。 最 后 
有 一 位 大 牛 现 号 ， 说 我 们 对 RFC 2581 的 要 求 太 高 了 ， 当 初 设 计 的 时 候 
根本 没 考 虑 这 么 多 。 引 进 FlightSize 只 是 为 了 得 到 一 个 安全 的 临界 窗口 
值 ， 而 不 是 像 Westwood+ 一 样 奶 求 比较 理想 的 窗口 。 

接 下 来 我 们 说 说 Vegas 算法 。 如 果 说 Westwood 只 是 对 TCP 进 行 了 细 
廊 性 的 、 改 良性 的 优化 ，Vegas 则 引入 了 一 个 全 新 的 理念 。 本 书 之 前 介 
绍 过 的 所 有 算法 ， 都 是 在 丢 包 后 才 调 市 拥塞 窗口 的 。Vegas 却 独 脱 蹊 
径 ， 通 过 监控 网 络 状态 来 调整 发 包 速 度 ， 从 而 实现 真正 的 “拥塞 避 
兔 "”。 它 的 理论 依据 也 并 不 复杂 : 当 网 络 状 况 民 好 时 ， 数 据 包 的 RTT 

(往返 时 间 ) 比较 稳定 ， 这 时 候 就 可 以 增 大 拥塞 窗口 ， 当 网 络 开 始 繁 

忙 时 ， 数 据 包 开始 排队 ，RTT 束 会 变 大 ， 这 时 候 就 需要 减 小 拥塞 窗口 


了 。 该 设计 的 最 大 优势 在 于 ， 在 拥塞 真正 发 生 之 前 ， 发 送 方 已 经 能 通 
过 RTT 预 测 到 ， 并 且 通 过 减缓 发 送 速度 来 避免 丢 包 的 发 生 。 

与 别 的 算法 相 比 ，Vegas 就 像 一 位 敏感 、 稳 重 、 谦 让 的 君子 。 我 们 
可 以 想象 当 环 境 中 所 有 发 送 方 都 使 用 Vegas 时 ， 总 体 传 输 情 况 是 更 稳 
定 、 更 高 效 的 ， 因 为 几乎 没有 丢 包 会 发 生 。 而 当 环境 中 存在 Vegas 和 其 
他 算法 时 ， 使 用 Vegas 的 发 送 方 可 能 是 性 能 最 差 的 ， 因 为 它 最 早 探测 到 
网 络 繁 性 ， 然 后 主动 降低 了 上 自己 的 传输 速度 。 这 一 让 步 可 能 束 释 放 了 
网 络 的 压力 ， 从 而 避免 其 他 发 送 方 遭 遇 丢 包 。 这 个 情况 有 点 像 开 车 ， 
如 果 路 上 每 位 司机 的 车 品 都 很 好 ， 谦 让 守 规 矩 ， 则 整体 交通 状况 良 
好 ;而 如 果 一 位 车 品 很 好 的 司机 跟 一 群 车 品 很 差 的 司机 一 起 开车 ， 则 
可 能 被 频 党 加 塞 ， 最 后 成 了 开 得 最 慢 的 一 个 。 

除了 本 文 提 到 的 Westwood 和 Vegas， 还 有 很 多 有 意思 的 TCP 算 法 。 
比如 Windows 操 作 系 统 中 用 到 的 Compound 算 法 就 同时 维持 了 两 个 拥塞 
窗口 ， 其 中 一 个 类 似 Vegas， 男 一 个 类 似 RFC 2581， 但 真正 起 作用 的 
是 两 者 之 和 。 所 以 说 Compound 走 的 是 中 庸 之 道 ， 在 保持 谦让 的 前 提 下 
也 不 失 进 取 。 在 Windows 7 上 ， 默 认 情 况 下 Compound 算 法 是 关闭 的 ， 
我 们 可 以 通过 下 面 的 命令 来 启用 它 。 
netsh interface tcp set global congestionprovider=ctcp 

启用 之 后 如 果 觉 得 不 合适 ， 可 以 通过 以 下 命令 来 天 闭 。 
netsh interface tcp set global congestionprovider=none 


图 6 是 在 我 的 实验 机 上 局 用 的 过 程 。 


本 Administrator C\Windows\system32\cmd exe 一 


:Mnetsh interface tcp show global 
Uuerying active state.., 


CP Global Parameters 


Receive-Side Scaling State : enabled 

himney Offload State : automatic 

etDMA State : enabled 

Direct Cache fcess {DCA) : i salina 

Recelve Yindow Auto-Tuning Leve ;Dorma 

Hdd-Un Longestion Lontrol Provider : none 
N Lapability 1sabled ’ 

RFCE 1323 Timestamps : disabled 是 


A interface tcp set global congestionprovider=ctcp 


:NA>netsh interface tcp show global 
Querving active state..., 
CP Global Parameters 
Recelve-Side Scaling State : enabled 
himney Offload State : automat1ic 
etDMA State : enabled 
Direct Cache fcess (DCA} : disabled 
Receive Yindow Auto-— ing Leve ” Norma 
Hdd-0n Congestion Control Provider :; ctcp 

NY Lapability : disabled 
RFG 1323 Timestamps : disabled 

图 6 


Linux 操 作 系 统 则 在 不 同 的 内 核 版 本 中 使 用 不 同 的 默认 TCP 算 法 ， 
比如 Linux kernels 2.6.18 用 到 了 BIC 算 法 ， 而 Linux kernels 2.6.19 则 升级 
到 了 CUBIC 算 法 。 后 者 比 前 者 的 行为 保守 一 些 ， 因 为 在 网 络 状 况 非 常 
糟糕 的 状况 下 ， 你 守 一 点 的 性 能 反而 更 好 。 

在 过 去 几 十 年 里 ， 虽 然 TCP 从 来 没有 遇 到 过 对 手 ， 不 过 它 上 自己 已 
经 演化 出 无 数 分 刁 ， 形 成 百家争鸣 的 局 面 。 本 文 无 法 一 一 列举 所 有 的 
算法 ， 点 到 的 也 如 晴 晓 点 水 ， 假 如 你 想 为 自己 的 网 络 乎 台 选 取 其 中 一 


种 ， 还 需要 卿 多 便 完 。 


简单 的 代价 一 一 UDP 


说 到 UDP， 就 不 得 不 拿 TCP 来 对 比 。 谁 叫 它 们 是 竞争 对 手 呢 ? 
前 文 提 到 过 UDP 无 需 连 接 ， 所 以 非常 适合 DNS 碍 询 。 图 1 和 网 2 是 
> 别 在 基于 UDP 和 TCP 时 执行 DNS 查询 的 两 个 包 ， 前 者 明显 更 加 直 截 
人 两 个 包 就 完成 了 。 
基于 UDP 的 查询 : 


No. Source kion Time Protocol Info 
1 32,106.159 二 32. 105,103 2013-08-13 16:57:52.895422 DNS Standard query A paddy_cCifs.nas.com 


图 1 


基于 TCP 的 查 询 ; 


No Sour Destinatio! Time Protocol Info 


10. 32,106.15910. 32.106.103 16:39:08.396 TCP 38541 > domain [ACK] Seq=1 Ack=1 Win=5856 Len=0 TSval=2711905588 T: 
10.32.106.15910.32.106.103 16:39:08,396 DN5 standard query A paddy_cifs, nas.Com 
10. 32,.106.10310. 32.106.159 16:39:08.397 DNS Standard guery response A 10. 32.106.7 


3 
4 
5 
6 10.32.106.15910.32.106.103 16:39:08.397 TCP 38541 > domain [ACK] Seq=39 Ack=55 a Len=0 TSval=27119055848 


5 10. 32,106.103 10, 32.106.159 16:39:08,398 TCP domain > 36541 [ACK] 5eq=55 ACK~40 win-65497 Len-0O TS5val~81445534 1 


10 10. 32,106.15910. 32.106.103 16:;39:;08,398 Tcp 38541 > domain [ACK} Seq=40 AtKk=56 Win=7356 Len=0 TSval=2711905588§ 


图 2 


UDP 为 什么 能 如 此 直接 呢 ? 其 实 古 因为 它 设计 简单 ， 想 复杂 起 来 
都 没 办 法 一 在 UDP 协议 头 中 ， 只 有 端口 号 、 包 长 度 和 校 验 码 等 少量 信 
导 ;- 居 共度 8 个 子 人 D3 小 全 的 头 印 给 它 市 米 了 一 些 做 民 * 


“由 于 UDP 协议 头 长 度 还 不 到 TCP 头 的 一 半 ， 所 以 在 同样 大 小 的 包 
里 ，UDP 包 携 市 的 净 数 据 比 TCP 包 多 一 些 。 


* 由 于 UDP 没有 Seq 号 和 Ack 号 等 概念 ， 无 法 维持 一 个 连接 ， 所 以 
省 去 了 建立 连接 的 负担 。 这 个 优势 在 DNS 碍 询 中 体现 得 麻 漓 尽 致 。 


当然 简单 的 设计 不 一 定 是 好 事 ， 更 多 的 时 候 会 市 来 问题 。 
1. UDP 不 像 TCP 一 样 在 乎 双方 MTU 的 大 小 。 它 拿 到 应 用 层 的 数 
据 之 后 ， 直 接 打 上 UDP 头 就 交 给 下 一 层 了 。 那 么 超过 MTU 的 时 候 怎 么 


办 ? 在 这 种 情况 下 ， 发 送 方 的 网 络 层 负责 分 片 ， 接 收 方 收 到 分 片 后 再 
组 竣 起 来 ， 这 个 过 程 会 消耗 资源， 降低 性 能 。 图 3 是 一 个 32 KB 的 写 操 
作 ， 根据 发 送 方 的 MTU 被 切 成 了 23 个 4 分 月 ” 


所 示 ， 


Source Destination 

7 10. 32,106.15919. 32.106.72 

B 10.32.106.15910. 32.106.72 
9 10.32.106,15910. 32.106.72 
10 10. 32,106,15910. 32.106, 72 
11 10.32.106.15910. 32.106.72 
12 10.32,106,15910. 32.106.72 
13 10. 32.106.15910. 32.106.72 
14 10.32,106,15910. 32.106.72 
15 10.32.106.15910.32.106.72 
165 10. 32,.106,15910. 32.106.72 
17 10. 32.106.15910. 32.106.72 
156 10. 32,106,15910, 32.106.72 
19 10. 32.106.15910. 32.106.72 
20 10. 32.106,15910. 32.106.72 
21 10.32,106,15910. 32.106. 72 
22 10. 32,106,15910. 32.106.72 
23 10. 32,106,15910. 32.106.72 
24 10.32.106.15910. 32.106.72 
25 10. 32,106,15910. 32.106.72 
26 10.32.106.15910.32.106.72 
27 10, 32,106,13910, 32,100.72 
26 10.32.106.15910.32.106.72 


IP 

ITP 

13: 55:59 Ip Fragmented IP 
13;55;59  IP Fragmented IP 
13:55:59 IPp Fragmented IP 
13:55;59 Ip Fragmented IP 
Ip Fragmented IP 
Ip Fragmented ITP 

ITP Fragwmented IP 

IP Fragmented IP 

tp Fragmented IP 

IP Fragmented IP 

Ip Fragmented IP 

IP Fragmented IP 

Ip Fragmernted IP 

IP Fragmented IP 

IP Fragmented IP 

Ip Fragmented IP 

ITP Fragmented IP 

tp Fragmented tp 

IP Fragmented IP 

Ip Fragmented IP 


protocol 
protocol 
protocol 
protocol 
protocol 
protoco]l 
prorocol 
protocol 
prorocol 
prorocol 
prorocol 
protrocol 
prorocol 
protocol 
protocol 
protocol 
protocol 
prococol 
protocol 
prorocol 
protocol 
prorocol 


图 3 


【proto=uDP 
【Proto=UDP 
(proto=UDP 
【proto-uDP 
【proto=UDP 
【proto-UDP 
[proro=UpP 
【proto-UDP 
【proro-UDP 
【proto-uUDP 
【proro=UDe 
【proro=UDP 
(proro-UDP 
[proto=UDP 
【proto-UDP 
【proto=UDP 
【proto-UDP 
(proro-UDP 
《proto-UDP 
(proro=-UDP 
【proto-UDP 


(proro-UpP Ox11 


Al, 
[2 

mal, 

di, 
wal, 

Oil, 
Odi, 
QA1, 
0x1, 
ml, 
Oxd， 
wal, 
ai, 
wal, 
0x11, 
mal, 
ii, 
di, 
Ql1, 
mai, 
mal, 


off=0, ID=008c) [Reasseabled in 


off-1480, 
off=2960, 

off-4440， 

off=5920， 

off-7400， 

off-Ba80， 

off-10360， 
off-11840， 
off-13320， 
of f-14800， 
of f=16280， 
off=17760, 
off=19240， 
off-20720， 
of f=22200， 
off-23680， 
off-25160, 
off-26640， 
off-28120, 
off-29000, 
off-31080, 


失 时 ， 客 户 端 不 得 不 重 传 整个 写 操作 (6 个 包 ) 


的 写 操作 束 好 很 多 ， 


基于 UDP 的 NFS 写 


客户 应 


NFS 写 请 求 


只 要 重 传 丢失 的 那 1 个 包 即 可 


操作 ( 见 图 4) : 


#29] 

in #29] 
in 429] 
in #29] 
1n #29] 


TD-00Bc) [Reassembled 
ID=005c) [Reassembled 
ID~008c) [Reassembled 
ID=008c) [Reassembled 
TD-008c) [Reassembled in 
ID=00O6c) [reassembled in 
ID~O0Bc¢) [Reassembled i 
ID=O08C) [Reassesb1ed 
ID-O05c) [Reassembled 
ID~OD8C) [Reasseabled 
ID=006c) [Reassembled 
ID=ODSC) [Reassembled 
ID=006c) [Reasseabled 
ID~O08c) [Reassembled i 
ID=008c) [Reassenbled 
ID-008c) [Reassembled ji 
ID~O08C) [Reasseabled 
ID-008c) [Reassembled ji 
ID=ODBC) [Reasseabled 
ID-OD5c) [Reassembled 
ID=ODBC) [Reasseabled 


i wa 


丢 包 


客户 端 等 不 到 响应 ， 
只 能 从 头 再 写 一 次 


基于 TCP 的 NFS 写 操作 ( 见 图 5) 


图 4 


服务 器 无 法 组 装 这 些 包 ， 
所 以 不 响应 


NFS 写 响应 


2. UDP 没有 重 传 机 制 ， 所 以 丢 包 由 应 用 层 来 处 理 。 如 下 面 的 例子 
某 个 写 操作 需要 6 个 包 完 成 。 当 基于 UDP 的 写 操作 中 有 一 个 包 丢 
基于 TCP 


客户 端 服务 器 


NFS 写 请 求 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 好 义 丢 包 
0 ne 0 e000 0 0 0 0 4 个 Dup Ack 
触发 了 快速 重 传 
NFS 写 响应 
图 5 


也 许 从 这 个 例子 你 还 感受 不 到 明显 的 差别 ， 试 想 一 下 ， 在 高 性 能 
环境 中 ， 一 个 写 操 作 需 要 数 十 个 包 来 完成 ，UDP 的 劣势 就 体现 出 来 
下 o 

3. 分 请 机 制 存 在 弱点 ， 会 成 为 墨客 的 攻击 目标 。 接 收 方 之 所 以 知 
道 什 么 时 候 该 把 分 片 组 装 起 来 ， 是 因为 每 个 包 里 都 有 “More 
fragments” 的 flag。1 表 示 后 续 还 有 分 片 ，0 则 表示 这 是 最 后 一 个 分 卢 ， 
可 以 组 装 了 。 如 果 墨 容 持 续 快 速 地 发 送 fag 为 1 的 UDP 包 ， 接 收 方 一 直 
无 法 把 这 些 包 组 装 起 来 ， 就 有 可 能 耗 尽 内 存 。 图 6 左边 是 NFS 写 操作 中 
7 一 28 号 分 片 的 flag， 右 边 是 29 号 分 片 (最 后 一 个 分 片 ) 的 flag 。 


3 Flags: Ox01 (More Fragments) 3 Flags: Ox00 
eR se = Reserved bit: Not set 0... .... = Reserved bit: Not set 
.0.. .... = Don't fragment: Not set .0.. .... = Don't fragment: Not set 
.1. .... = More fragments: Set ..0. .... = More fragments: Not set 
图 6 


天 于 UDP 束 简单 介绍 这 么 多 。 虽 然 我 觉得 这 个 协议 实在 没 多 少 可 
谈 的 ， 但 天 于 UDP 和 TCP 的 争论 一 直 古 某 些 论坛 的 热门 话题 。 了 解 了 
UDP 的 工作 方式 ， 也 算 学 会 一 门 伪装 成 大 牛 的 手艺 。 下 次 再 有 人 宣 
称 “UDP 的 性 能 比 TCP 更 好 ”时 ， 你 可 以 不 紧 不 慢 地 告诉 他 , “也 不 尽 
然 ， 我 来 给 你 举 一 个 NFS 丢 包 的 例子 ..…...”。 


剖析 CIES 协 议 


前 文 介绍 过 一 个 文件 共享 协议 ， 即 Sun 设 计 的 NFS。 理 论 上 NFS 可 
以 应 用 在 任何 操作 系统 上 ,但 是 因为 历史 原因 ， 现 实 中 只 在 
Linux/UNIX 上 流行 。 那 Windows 上 一 般 使 用 什么 共享 协议 呢 ? 它 就 是 
微软 维护 的 SMB 协 议 ， 也 叫 Common Internet File System (CIFS) 
CIFS 协 议 有 三 个 版 本 : SMB、SMB2 和 SMB3， 目 前 SMB 和 SMB2 比 较 

在 Windows 上 创建 CIFS 共 享 非常 简单 ， 只 要 在 一 个 目录 上 右键 单 
击 ， 在 弹出 的 荣 单 中 选择 属性 --> 共 享 ， 再 配置 一 下 权限 就 可 以 了 。 如 
图 1 所 示 ， 在 其 他 电脑 上 只 要 输入 P 和 共享 名 束 可 以 访问 它 了 。 


| | 
4 
-| Rs 


CIFS 服 务 器 1032. 106.72 提 供 了 共享 \dest 
2 J | 了 
I 中 【 中 
CIFS 客 户 机 A 通过 \10.32.106.72\dest 在 服务 器 上 读 写 CIFS 客 户 机 B 也 通过 \\10.32.106.72\dest 在 服务 器 上 读 写 
图 1 


我 在 读 大 学 的 时 候 ， 曾 经 把 整个 D 盘 共享 出 来 ， 没 想到 几 天 后 就 
有 雷锋 在 里 面 放 了 几 部 小 电影 。CIFS 在 企业 环境 中 应 用 非常 广泛 ， 比 
如 映射 网 络 盘 或 者 共享 打印 机 ;同事 间 共 享 资 料 也 可 以 采用 这 种 方 
式 。 由 于 使 用 CIFS 的 用 户 实在 太 多 ， 人 微软 的 技术 支持 部 门 每 天 都 会 收 
到 很 多 关于 CIFS 问 题 的 咨询 (我 读 大 学 时 曾 在 那里 兼职 过 一 年 ) 

要 想 成 为 CIFS 方 面 的 专家 ， 就 必须 了 解 它 的 工作 方式 。 比 如 在 我 
的 实验 室 中 ， 客 户 端 10.32.200.43 打开 共享 文件 
N10.32.106.72\destvabc.txt 时 ， 底 层 究 竟 发 生 了 什么 ? 借助 Wireshark， 
我 们 可 以 把 这 个 过 程 看 得 清 清楚 楚 。 


首先 ，CIFS 只 能 基于 TCP， 所 以 必定 是 以 三 次 握手 开始 的 。 从 图 2 
可 见 ，CIFS 服 务 器 上 的 端口 号 为 445。 


No, Source Destination Time Protocol Info 
1 10.32.200.43 10.32.106.72 07:34:30.458935 TCP 54136 > microsoft-ds [SsYN] Seq=0 Win=8192 Len=0 MSs=1428 
2 10.32.106.7z 10.32.200.43 07:34:30.459902 TCP wmicrosoft-ds > 54136 [SYN, ACK] 5eq-0 ACK=1 win=-65535 Len 
3 10.32.200.43 10.32.106.72 07:34:30.460019 TCcp 54136 > microsoft-ds [ACK] Seq=1 Ack=1 win=65536 Len=0 


«| 灵 


田 Frame 3: 54 bytes on wire (432 bits), 54 bytes captured (432 bits) 
Ethernet II, Src: Dell_68:80:28 (5cC:26:0a 28), Dst: Cisco_e 
I Internet Protoco! ) 43), Dst: 10,32 


' Transmission Control Protocol, Src Port: 54136 (54136), D5t Port: microsoft-ds (445), 5eq: 1, Ack: 1, Len: 0 


图 2 


接 下 来 的 第 一 个 CIFS 操 作 是 Negotiate (协商 ) 。 协 商 些 什么 呢 ? 
请 关注 图 3 的 底部 ， 可 见 客户 端 把 自己 支持 的 所 有 CIFS 版 本 ， 比 如 
SMB2 和 NT LM 0.12 (为 了 便于 和 SMB2 对 比 ， 接 下 来 我 们 称 它 为 
SMB) 等 都 发 给 服务 器 。 


No, Source Destination Time protoccl Info 
4 10,32.200.43 10,32.106.72 07:34:30.460122 5MB Negotiate Protocol Request 
6 10,32.106.72 10.32.200.43 07:34:30.461026 SMe Neqotiate Protocol Response 
4 | JP 


Frame 4: 213 bytes on wire (1704 bits), 213 bytes captured (1704 bits) 
Ethernet II, Src: Dell_68:80;28 (5c:26:0a:68:80:28), D 


Internet 


nm 
© Transmission Control Protocol, src Port: 
四 NetBID5 Session service 
GB SMB (Server Message Block Protocol) 
因 SMB Header 
日 Negotiate Protocol Request (0x72) 
Word Count (WCT): 0 
Byte Count (BCC): 120 
局 Requested Dialects 
Dialect: PC NETwORK PROGRANM 1.0 
Dialect: LAMAN1.0 
Dialect: Windows for Workgroups 3.1a 
Dialect: LM1.2X002 
Dialect: LAMIAN2.1 
Dialect: NT LM 0.12 
Dialect: SMB 2.002 
Dialect: SMB 2.2?? 


团团 团 团团 团 回回 


图 3 


服务 絮 从 中 挑 出 目 己 所 支持 的 最 高 版 本 回复 给 客户 问 。 从 图 4 中 可 
知 ， 服 务 器 选择 的 是 NT LM 0.12 (SMB) ， 这 说 明了 该 服务 器 不 支持 
SMB2 。 


No, _ Source Destination Time Protocol Info 
4 10.32.200.43 10.32.106.72 07:34:30.460122 5SMB Negotiate Protocol Request 
6 10.32,106.72 10.32.200.43 07:;34:30.461026 SME Negotiate Protocol Response 


4[ 加 


(Frame 6: 221 bytes on wire (1768 bits), 221 bytes caprured (1768 bits) 
| 田 Ethernet II, Src: Cisco_e3:a6:80 (ec:30:91:e3:a6:80), Dst: Dell_68:80:28 (5c:26:0a;68:80:28) 
InNternetr prorocol, src: 10.32.106.72 (10.32.106.72), DstT: 10.32.200.43 (10.32.200.43) 
|@ Transmission Control Protocol，Src Port: microsoft-ds (445), Dst Port: 54136 (54136), Seq: 1, ACck: 160 
| 田 NetBIOS Session service 
日 SMB (Server Message Block Protocol) 

四 SM6 Header 

百 Negcriare ProEOCO1 Response (Ox72) 


理解 了 协商 过 程 就 可 以 处 理 CIFS 版 本 相关 的 问题 了 。 比 如 我 接 到 
过 新 加 坡 某 银行 的 咨询 ， 他 们 想 知 道 如 何 让 客户 端 A 和 服务 器 C 之 间 用 
SMB2 通 信 ， 而 客户 端 B 和 服务 器 C 之 间 用 SMB 通 信 。 我 的 建议 是 在 A 
和 C 上 都 启用 SMB2， 而 在 B 上 只 启用 SMB， 这 样 束 能 协商 出 想 要 的 结 
果 o 

协商 好 版 本 之 后 ， 融 可 以 建立 CIFS Session 了， 如 图 5 所 示 。 


|Ne Saurems Dedkrnsticon Tre protocol me 
2 ps 直 3 og? 2 太 34; 3 A61807 SM5 Se5ss10n Setup Andx ReOVest, NTLMSSP_NEGITIATE 
ee ~ 3 


34; 60 mm Session Serup Aan nesponse, sr CHALLENGE, eit CHALL is Biol STATUS_MORE_PROCESSING_NEOUIRED 
= 于 3 on IP Andx Request。NTLWSSP_AUTH，User: nas adsinis 
43 pT EE Session Satup Ancx Rasponse 


Session Setup 的 主要 任务 是 映 份 验证 ， 和 常用 的 方式 有 Kerberos 和 
NTLM (本 例 就 是 用 到 NTLM) 。 这 两 种 方 ee 我 
会 男 写 一 篇 文章 专门 介绍 。 假 如 有 用 户 抱怨 访问 不 了 CIFS 服 务 问 
题 很 可 能 束 发 生 在 Session Setup。 

Session Setup 过 后 ， 癌 味 着 已 4 圣 打开 \\10.32.106.72 了 。 接 下 来 要 做 
的 是 打开 \dest 共 至 。 。 如 图 6 所 未 示 ， 这 个 操作 称 为 Tree Connect 。 


lo. Source Destinetion Protocol Info 
11 Ts 32.200.43 10. 六 106.72 3 30.470888 = Tree Connect Andx Request, Path: ‘\\10.32.106.72\DEST 
12 10. 32. 106. 32 10. 32, 200. 3 OF: :34: :30. 4717 797 _SNB Tree connect Andx Response 

4 mM 


中 SMB Header 
Server Compar nent: SMB 


[Response to: 11] 
[Time from request: 0.000909000 seconds] 
SMB Command: Tree Connect Andx (0x75) 
Error Class: Succe55 (0x00) 
Reserved: 00 
Error Code: NO Error 
加 Flags: Ox81 
四 Flags2: 0x8801 
Process ID High: 0 
signature: 0000000000000000 
Reserved: 0000 
田 Tree ID: 63 (\\10,32.106,72\DEST) 


图 6 


点 开 这 两 个 Tree Connect 包 ， 最 有 价值 的 信息 当 属 服务 絮 返 回 的 
Tree ID 〈 如 图 6 底部 所 示 ) ee ss 
问 /dest 共 享 的 子 目 未 和 子 文件 。 这 一 步 看 似 简单 ， 但 初学 者 也 会 有 一 
些 疑 问 。 
常见 问题 1: 如果 用 户 无 权 访 问 此 目录 ， 会 不 会 在 Tree Connect 这 一 步 
失败 ? 


答案 : 不 会 。Tree Connect 并 不 检查 权限 ， 所 以 即便 是 无 权 访问 的 
用 户 也 能 得 到 Tree ID。 检 查 权限 的 工作 由 接 下 来 的 Create 操 作 完 成 。 
和 常见 问题 2， 某 用 户 已 经 打开 了 \\10.32.106.72\dest\abc.txt， 如 果 还 想 再 
打开 \10.32.106.72\source\abc.txt， 需 要 再 建 一 个 TCP 连 接 吗 ? 

答案 : 没有 必要 ， 在 一 个 TCP 连 接 上 能 维持 多 个 打开 的 Tree 
Connect ° 

过 了 Tree Connect 是 不 是 该 开始 读 abc.txt 了? 其 实 还 差 很 多 步骤 ， 
接 下 来 客户 端 还 要 在 服务 器 上 查询 很 多 信息 。 看 了 图 7 你 就 能 理解 为 什 
么 人 们 都 嫌 CIFS 协 议 嗓 叶 了 。 


Destination Time protocol Info 


13 10. 32. 200. 0. 32. A 47219 SMB Trans2 Request, QUERY_PATH_INFO, Query File Basic Info 

14 10,32.106.72 10.32.200.43 07:;34;30.473051 SM6 Trans2 Response, QUERY_PATH_INFO 

15 10. 32.200.43 10.32.106.72 07:;34;30.473177 5M6 Trans2 Request, QUERY_PATH_INFO, Quyery File Standard Info, Path; \a.txl 
16 10. 32.106.72 10.32.200.43 07:34:30.473913 SM6 Trans2 Response, QUERY_PATH_INFO 

17 10. 32. 200.43 10.32.106.72 07:34:30.474539 SM6 Trans2 Request, QUERY_PATH_INFO, Query File Basic Info, Path: 
18 10. 32.106.72 10.32.200.43 07:34:30.475274 SMB Trans2 Response, QUERY_PATH_INFO 

19 10. 32. 200.43 10.32.106.72 07:34:30.475383 SM6 Trans2 Request, QUERY_PATH_INFO, Query File standard Info, Path: 
20 10. 32.106.72 10.32.200.43 07:34:30.476100 5M6B Trans2 Response, QUERY_PATH_INFO 

21 10. 32. 200.43 10.32.106.72 07:34:30.476377 SM6 Trans2 Request, QUERY_FS_INFO, Query FS Attribute Info 

22 10. 32.106-72 10.32.200.43 07:34:30.477129 SM6B Trans2 Respo QUERY_FS_INFO 

23 10. 32. 200. 10.32.106.72 07:34:30.506991 SM6 Trans2 Request, FIND_FIRST2, Pattern: \a.txt 

24 10. 32.106.72 10.32.200.43 07:34:30.507788 SM6B Trans2 Respol FIND_FIRST2, File: 


25 10. 32.200.43 10.32.106.72 07:34:30.509622 5M6 NT Create AndX Request, FID: Ox003fF, Path: 

2b 10, $2,106. /72 10.32.200.43 0/: 持 ;30.95109545 SMB NT Create AndX Response, FID: Ox00f 

27 10, 32,200.43 10.32.106.72 07:34:;30.510658 SMB Trans2 Request, QUERY_FILE_INFO, FID: Ox003f, Query File Internal Info 
28 10, 32,106.72 10.32.200.43 07:34:30.511380 SMB Transz Response, FID: OX003, QUERY_FILE_INFO 

29 10, 32,200.43 10.32.106.72 07:34:;30.511889 SMB Trans2z Request, QUERY_FILE_INFO, FID: Ox003f, Query File Standard Info 
30 10, 32,106.72 10.32.200.43 07:34:30.512609 SMB Transz Response, FID: OXx003, QUERY_FILE_INFO 


图 7 


其 实 从 13 号 到 68 号 包 都 是 类 似 图 7 所 示 的 网 络 包 ， 图 7 只 显示 了 一 
小 部 分 ， 我 不 想 把 所 有 内 容 都 贴 出 来 浪费 纸张 。 这 些 包 查询 了 文件 的 
基本 属性 、 标 准 属 性 、 扩 展 属性 ， 还 有 文件 系统 的 信息 等 。 邓 好 
SMB2 对 此 有 所 改进 。 


再 多 的 属性 也 有 查 完 的 时 候 ， 到 了 69 号 包 终 于 看 到 Create Request 
\abc.txt 了 ( 见 图 8) 。 


No 


Source Destination Time protocol Info 
69 10, 32.200,43 10.32.106.72 07:34:30.551849 SMB NT Create And 
70 10. 32.106.72 10.32.200.43 07:34:30.552692 5M6 NT Create Andx Response, FID: 0x0044 


图 8 


Create 是 CIFS 中 非常 重要 的 一 个 操作 。 无 论 是 新 建文 件 、 打 开 目 
了 示 ， 还 是 读 写 文件 ， 都 需要 Create。 有 时 候 我 们 因为 没有 权限 遭 
过 “Access Denied” 销 误 ， 或 者 履 盖 文件 时 收 到 “File Already Exists” 提 


醒 ， 都 是 来 目 Create 这 个 操作 。 经 常 有 人 会 咨询 的 几 个 关于 Create 的 问 
题 如 下 所 示 。 
常见 问题 1 如 果 \dest 的 权限 里 禁止 某 用 户 访问 ， 但 \destabc.txt 的 权限 
里 允许 该 用 户 访问 ， 那 他 打开 \\10.32.106.72\dest\abc.txt 时 会 不 会 失 
败 ? 

答案 : 如 果 该 用 户 先 打开 \10.32.106.72\dest， 就 会 在 “NT Create 
\dest” 这 一 步 收 到 Access Denied 报 错 ， 当 然 束 无 法 再 进一步 打开 abc.txt 
了 。 而 如 果 直 接 在 地 址 栏 输入 W10， 32.106.72\dest\abc.txt， 则 可 以 跳 
过 “NT Create \dest” 这 一 步 ， 所 以 不 会 有 任何 报错 。 也 就 是 说 可 以 直接 
打开 子 文件 abc.txt， 却 打 不 开 上 级 文件 夹 \dest， 这 个 结果 可 能 是 很 多 
人 意 想 不 到 的 。 
常见 问题 2 Windows 的 Backup Operators 组 中 的 用 户 有 权限 备份 所 有 
文件 ， 但 不 一 定 有 权限 读 文 件 。 那 服务 器 是 怎么 知道 一 个 用 户 是 想 备 
份 还 是 想 读 的 ? 

备份 和 读 这 两 个 行为 的 确 非 常 相似 ， 都 是 依靠 Read 操 作 来 
完成 的 。 它 们 的 不 同 点 在 于 ， 备 份 的 时 候 在 Create 请 求 中 的 “Backup 
ip els 而 读 的 时 候 “Backup Intent”* 设 为 0 (如 图 9 所 示 ) 。 服 务 
器 融 定 依 徘 Backup Intent 来 决定 是 否 人 允许 访问 的 。 


忆 Create 人 天 ons: 0x00000040 
0 0 ~ Directory: File being created/opened must not be a directory 
..。..0. = write Through: writes need not flush buffered data before completing 
2 ES only: The file might not only be accessed sequentially 
a. = INtermediate Buffering: Incermediace buffering 1s allowe: 
000 .三 ne I/o Alert: operations NOT necessar Ey synchronous 
Ss i Ef a erE: Ne ations NOT necessarily synchronous 
wa Dt Fi eing dd a must not be a directory 
了 ER 一 Tr ion: Create Tree Sm 2 NOT set 


和 0 .... .... .... = Delete On Close: The file should not be etd he it is closed 
。。..0. .... .... .... = Open By FileID: Open6yFileID is NOT set 


BT 0..。...。.。..。-.,-， = No Compression: Compression 35 a ed for Open/Create 
we es ee 0 oe oo oe ooo 一 Reserve Opfilter: Reserve Opfilter 3 NOT Set 
oa se0, sore soss sees asce over = Open Reparse Point: Normal open 
sos ss Hes Daas doa. ves do. = Oa NO Racall: Open no ronal 1s Wr Set 
.0..， ,一 Open For Free Space query: This is NOT an open for free space query 


图 9 


常见 问题 3 如果 多 个 用 户 一 起 访问 相同 文件 ，CIFS 如 何 处 理 冲 突 ? 


答案 : 在 Create 请 求 中 有 Access Mask 和 Share Access Mask 两 个 选 
项 。 前 者 表示 该 用 户 对 此 文件 的 访问 方式 〈 读 、 写 、 删 等 ) ， 后 者 表 
示 该 用 户 人 允许 其 他 用 户 对 此 文件 的 访问 方式 。 举 个 例子 ， 用 户 A 发 送 
的 Create 请 求 中 ，Access Mask 是 “ 读 + 写 ”，Share Access Mask 是 “ 读 ”， 
表示 目 己 要 读 和 写 ， 并 同时 允许 其 他 人 只 读 。 假 如 接 下 来 用 户 B 也 发 
送 Access Mask 为 “ 读 + 写 ”的 Create 请 求 ， 束 会 收 到 “Sharing Violation” 错 
误 ， 因 为 A 不 允许 其 他 人 写 。 

图 10 中 的 Access Mask 只 是 读 。 


cute: GeEner1c execu 15 NOT set 
,= Generic All: Generic all 15 NOT set 
= Maxi Allowed: Maximum allowed is 


= NOT set 
-= System Security: System securiry 15 NOT set 
S hronize: n NOT wait on ndle 


= Synchronize: Can N a to synchronize on completion of 1/0 
— Wrirte Owner: Can NOT write owner (take ownership) 
AC: Owner may NOT write to the DAC 


= write D 
- Read Control: READ ACCESS to owner, group and ACL of the SID 
Delete: NO delete acce 


SS 
1 Attributes: MO write attributes access 


= Execute: NO execute access 
bures access 


= Wri extendec acEr1 
和 = Read EA: READ EXTENDED ATTRIBUTES access 
Ee = Append: NO append access 

6 ri i < 


注意 : 这 里 讨论 的 访问 冲突 指 的 是 CIFS 协 议 层 的 。 有 些 应 用 软件 还 有 
专门 的 机 制 防止 访问 冲突 ， 比 如 Word 和 Excel， 但 Notepad 束 没有 。 
常见 问题 4，CIFS 如 何 保 证 缓存 数据 的 一 致 性 ? 

答案 : 客户 端 可 以 暂时 把 文件 缓存 在 本 地 ， 等 用 完 之 后 再 同步 回 
服务 器 并 。 这 是 提高 性 能 的 好 办 法 ， 就 像 我们 写 论文 时 ， 都 喜欢 把 图 
书馆 的 资料 借 回 来 ， 以 备 随时 查阅 。 假 如 不 这 样 做 ， 就 得 频繁 地 跑 图 
书馆 查 资 料 ， 时 间 都 浪费 在 路 上 了 。 当 只 有 一 个 用 户 在 访问 某 文件 
时 ， 在 客户 端 缓存 该 文件 是 安全 的 ， 但 是 在 有 多 个 用 户 访问 同一 文件 
的 情况 下 则 可 能 出 现 问题 。CIFS 采 用 了 Oplock (机 会 锁 ) 来 解决 这 个 
问题 。Oplock 有 Exclusive、Batch 和 Level 2 三 种 形式 。Exclusive 人 允许 
读 写 缓存 ，Batch 人 允许 所 有 操作 的 缓存 ， 而 Level 2 只 人 允许 读 缓存 。 
Oplock 也 是 在 Create 中 实现 的 ， 如 图 11 确 部 所 示 ， 该 客户 端 被 授予 
Batch 级 别 的 机 会 锁 ， 表 示 他 可 以 缓存 所 有 操作 。 


No. Protocol Info 
69 "32. 200.43 10. 106.72 如 5 30. 551849 NT Create Andx Request, FID: 一 Path: \a.txt 
70 10. 32. 106.72 10. 32.200.43 07:34:30. 5352692 SMB NT Create AndX Response, FID: Ox 


J Frame 70: 193 3 bytee s on i re saa bi Rs 193 Byres 和 Ga ES 
习 Ethernet II，Src: Cisco_e3:a6;80 (ec:30:91:e3:a6:80), Dst: Del11_68:80:28 (5c:26:0a:68:80:28) 
习 Internet Protocol, Src: 10.32.106.72 (10.32.106.72), Dst: 10.32.200.43 (10.32.200.43) 
Transmission Control Protoco], src Port: microsoft-ds (445), Dst Port: 54136 (54136), Seq: 3524, Ack: 3063 
NetBIOS Session service 
3 SMB (Server Message Elock Protocol) 
加 SMB Header 
BNT Create Andx Response (OQxa2) 
word Count (WwCT): 42 
AndXxCommand:; No further commands (Oxff) 
Reserved: 00 
Andxoffser: 0 
Dplock level: Batch oplock granted (2) 


图 11 


为 了 更 好 地 理解 Oplock 的 工作 方式 ， 我 们 假设 一 个 场景 来 说 明 。 

1. 用 户 A 用 Exclusive/Batch 锁 打开 某 文 件 ， 然 后 缓存 了 很 多 修改 
的 文件 内 容 。 

2. 用 户 B 想 读 同 一 个 文件 ， 所 以 发 了 Create 请 求 给 服务 

3. 如 有 果 此 时 服务 器 忽视 A 的 Oplock， 0 8 
不 到 被 A 修改 后 的 内 容 (也 就 是 出 现 数据 不 一 致 )。 因 此 服务 器 通知 A 
释放 Exclusive/Batch 锁 ， 换 成 Level 2 锁 。 

4. A 立即 把 缓存 里 的 修改 量 同步 到 服务 器 上 

5. 服务 恬 给 B 回 复 Create 吧 应 ， 同 时 授予 其 Level 2 锁 。B 接 下 来 再 
发 读 请 求 ， 0 的 文件 内 容 。 

到 了 Create 这 一 步 ， 距 离 TCP 连 接 的 建立 已 经 过 去 0.093 秒 。 虽 然 
听 上 去 很 短 ， a ee i 。 这 段 时 间 足 够 
我 实验 又 的 NFS 服 务 囊 明 应 45 个 64KB 的 读 操 作 ， 而 本 例 中 的 读 操作 却 
刚 要 开始 ， 可 见 CIFS 协 议 有 多 史 喧 。 这 让 我 想起 一 个 经 典 问 题 ,，“ 为 
什么 复制 一 个 1MB 的 文件 比 复制 1024 个 1KB 的 文件 快 很 多 ， 虽 然 它们 
的 总 大 小 是 一 样 的 ? ”原因 就 是 读 写 每 个 文件 之 前 要 花费 很 多 时 间 在 下 . 
肆 的 准备 工作 上 。 一 个 1MB 的 文件 只 需要 准备 一 次 ， 而 1024 个 1KB 的 
文件 却 需 要 1024 次 。 

从 包 号 71 开 始 ， 读 操作 终于 出 现 了 。 如 图 12 所 示 ，CIFS 的 读 行为 
看 上 去 和 NFS 非 常 相似 ， 都 是 从 某 个 offset 开 始 读 一 定数 量 的 字 季 。 文 


件 的 内 容 *I need a vacation!” 能 从 包 里 直接 看 出 ， 说 明 传输 时 没有 加 


0 


蚊 


cl ii 
SME Read Andx Request, FID: Ox0044, 18 byres ac offser 0 
Ons TID; 0x0044，18 bytes 


RE i mm 
71 10. 32. 200.43 10.32.106.72 07:34:30.552946 
Poel S2300 .70 1 ,20 07:34:30,9553700 SMB REad AndX Response, FID 


0000 5c 26 0a 68 80 28 ec 30 91 e3 a6 80 08 00 45 00 \&.h.(C.0 .,....E. 
2 : 


2e 00 


还 有 很 多 有 趣 的 行为 是 从 这 两 个 包 里 看 不 出 来 的 ， 必 须 设计 一 些 
实验 才能 归纳 出 来 。 比 如 下 面 几 个 常见 问题 ， 可 能 很 多 读者 会 感 兴 
趣 o 
常见 问题 1 同样 是 用 SMB 协 议 读 一 个 文件 ，Windows XP 和 Windows 7 
的 表现 有 何不 同 ? 

答案 : 通常 一 个 新 的 操作 系统 发 布 时 ， 微 软 都 会 罗列 它 的 种 种 好 
处 ， 但 大 家 基本 上 听 听 就 过 去 了 ,没有 人 会 去 较真 。 我 仔细 对 比 了 
Windows XP 和 Windows 7 的 读 行 为 之 后 ， 发 现 Windows 7 的 确 有 所 改 
进 。Windows XP 发 了 一 个 读 请 求 之 后 就 会 停 下 来 等 回复 ， 收 到 回复 后 
再 发 下 一 个 读 请 求 。 而 Windows 7 则 可 以 一 口气 发 出 多 个 读 请 求 ， 就 
像 NFS 一 样 。 下 面 是 在 这 两 种 操作 系统 上 读 同一 个 文件 的 过 程 ， 两 者 
的 差别 在 Wireshark 中 一 目 了 然 。 

Windows XP 的 Request 和 Response 是 交替 的 〈 见 图 13) : 


[No _ Source Destinelion Te Protocol Info 
了 ,3 了 2 200.131 去 ,IO O98. 


Windows 7 的 Requests 是 多 个 一 起 发 出 的 ( 见 图 14) 


“153 10.32-200-43 10.32. 106.72 16:13:14.340569 SMB Read Andx Reqduest, FID: Ox0042, 32768 bytes ac offset 294912 
| 177 10.32.106.72 10.32;200.43 16:13:1: - Read Andx Response, FID: Ox0042, 32768 bytes 


图 14 


这 两 种 读 方式 在 延迟 小 的 网 络 中 体现 不 出 差别 ， 在 带宽 小 的 环境 
中 差别 也 不 大 (因为 发 送 窗口 小 ， 一 个 读 请 求 本 来 就 要 多 个 往返 才能 
传 完 ) 。 但 在 高 延迟 、 大 带宽 的 环境 中 就 很 不 一 样 了 ，Windows 7 的 
性 能 会 比 Windows XP 好 很 多 。 在 网 络 有 丢 包 的 情况 下 差别 还 会 更 大 ， 
因为 Windows XP 比 Windows 7 更 容易 健 到 超时 重 传 。 
常见 问题 2; 利用 Windows Explorer 从 CIFS 共 享 上 复制 文件 ， 为 什么 比 
Robocopy 和 EMCopy 之 类 的 工具 慢 很 多 ? 

答案 : 如 果 复 制 一 个 大 文件 可 能 是 看 不 出 差别 的 ， 但 如 采 是 复制 
一 个 包含 大 量 小 文件 的 目录 ， 的 确 是 比 这 些 工具 慢 很 多 。 这 是 因为 
Windows Explorer 是 逐个 文件 复制 的 (单线 程 ，， 而 这 些 工具 能 同时 
复制 多 个 文件 “多 线程 ) 。 比 如 上 文 提 到 的 前 0.093 秒 里 虽然 交互 多 
次 ,但 占用 带宽 极 少 ， 多 个 文件 并 行 操 作 的 效率 会 高 很 多 。 下 面 两 个 
图 是 EMCopy 的 单线 程 和 双 线 程 复制 同一 文件 夹 的 结果 ， 后 者 明显 要 
快 得 多 。 


单线 程 的 复制 ( 见 图 15) : 


Thread count :1 
Retry options : Ag Aw:30 


Processing the copy from z:\West™\ to da:\tnpNlest™\ 


Copy cnginc Statistics 


: 599 
; 日 
: 23 
人 Descriptor Settings» done: : 621 
的 noumt of copicd bytces> : 16 KB 16 744 Butc《s>> 
Fstrimated convy hitrate : 1.691 KR/s 
Global copy duration : 9.670 


Elapsed time: secs: 22 


图 15 


双 线 程 的 复制 ( 见 图 16) 


Thread count S 
Retry options > AF:1860 /Aw:30 


Processing the copy from z:NtestN to d:\tmp\NMest\ ... 


Copy engine Statistics 


es> copied ; 598 
FilelsyY recovered | 
i ctoryCies) created : 23 
Security Descriptor SettingCs»> done: : 621 
Amount of copied byte‘s> : 16 KB Ci6 744 Byte‘ds>2> 
Estimated copy bitrate : 2.994 KB/s 
Global copy duration : 5.461 


Elapsed time: secs: 16 


图 16 


常见 问题 3: 从 CIFS 共 享 里 复制 一 个 文件 ， 然 后 粘贴 到 同一 个 目录 
里 ， 为 什么 还 不 如 粘贴 到 客户 端的 本 地 硬盘 快 ? 

答案 : 前 者 需 要 拒 数 捅 从 服务 器 复制 到 客户 端的 内 存 里 ， 然 后 再 
从 客户 端的 内 存 写 到 服务 右上 ， 相当 于 读 + 写 两 个 操作 。 而 后 者 只 是 
从 服务 器 读 到 客户 端 内 存 里 ， 然 后 写 到 本 地 硬盘， 相当 于 网 络 上 只 有 
读 操作 ， 这 样 就 快 了 一 些 。 图 17 是 前 者 的 网 络 包 。 


图 17 


SMB3 对 此 有 了 本 质 上 的 改进 ， 可 以 完全 实现 服务 器 端的 本 地 复 
制 ， 这 样 前 者 反而 比 后 者 快 了 。 
常见 问题 4: 在 CIFS 共 享 上 剪 切 一 个 文件 ， 然 后 粘贴 到 同一 共 孚 的 子 
目录 里 ， 为 什么 融 比 粘贴 到 本 地 硬盘 快 呢 ? 

答案 : 在 相同 的 文件 系统 上 剪 切 、 粘 贴 ， 本 质 上 只 有 “rename” 操 
作 ， 并 没有 读 和 写 ， 所 以 是 非常 快 的 。 请 看 图 18 的 抓 包 ， 该 操作 是 把 
abc.txt 和 剪 切 到 一 个 叫 \test 的 子 目 孙 。 


No, Source Destination Time Protocol jnfo 
430 10. 32.200.13110. 32.106.72 7:06:18.446528 SMB Ren: 
31 10.32.106.72 10.32.200.131 06:1B.41 


图 18 


常见 问题 5: 为 什么 在 Windows 7 上 启用 SMB2 之 后 ， 读 性 能 提高 了 很 
多 ? 

答案 : 这 是 因为 SMB2 没有 SMB 那 么 嚼 野 。 从 图 19 可 见 ， 读 之 前 
的 查询 用 了 不 到 10 个 包 ， 而 SMB 往 往 要 用 数 十 个 包 来 查询 各 种 信息 。 


Pe a 


图 19 


网 络 江 湖 


有 人 的 地 方 束 有 恩人 乱 ， 有 恩怨 的 地 方 整 有 江湖 ，IT 圈 也 是 如 此 。 
过 去 十 几 年 里 ,我 们 见证 了 摩托 罗拉 和 诺基亚 在 手机 行业 的 沉浮 ; 微 
软 和 苹果 在 个 人 电脑 领域 的 竞争 ; 还 有 Windows 和 Linux 操 作 系统 在 数 
据 中 心 领 域 的 角逐 。 在 以 后 的 岁月 里 ， 不 知道 还 有 和 多少 业 内 的 腥 风 了 血 
雨 等 着 我 们 。 


俗话 说 内 行 看 门道 ， 外 行 看 热闹 。 作 为 搁 术 人 人员， 我们 能 看 到 的 
明 争 上 暗 斗 比 其 他 人 更 多 ， 甚 至 能 从 协议 细节 中 看 到 高 手 过 招 的 痕迹 。 
比如 说 Windows 和 Linux 之 争 ， 也 能 体现 在 它们 的 共享 协议 CIFS 和 NFS 
上 。 本 书 之 前 已 经 分 别 解 析 过 它们 的 工作 方式 ， 这 里 再 来 探讨 它们 的 
历史 和 发 展 趋势 。 

早期 CIFS 协 议 的 设计 比 NFS 落 后 不 少 ， 甚 至 可 以 看 到 一 些 “ 不 专 
业 ” 的 痕迹 。 我 个 人 意见 最 大 的 有 两 点 。 


“ 早期 CIFS 协 议 非常 哆 呆 ， 这 一 操 在 前 面 的 《 训 析 CIFS 协 议 》 一 
文中 已 有 详解 。 比 如 打开 一 个 文件 之 前 竟然 需要 50 多 个 包 的 来 回 ， 
分 网 络 包 如 图 1 所 示 。 
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23 10. 32. 200.43 10.32.106.72 07:34:30.506991  sM6 
24 10. 32.106.72 10.32.200.43 07?7:34:30.507788 ”5MB ES 
25 10. 32.200.43 10.32.106.72 07:34:30.509622 5M6 NT Create AndX Request, FID: Ox003f, Path: 

2b 10, $2,106. /2 10.32.200.43 0Q/: 捍 ;3 扣 .951095435 SMB NT Create Andx Response, FID: OxX00f 

27 10, 32,200.43 10.32.106.72 07:34:;30.510658 SMB Trans2z Request, QUERY_FILE_INFO, FID: Ox003f, Query File Internal Info 
28 10, 32,106.72 10.32.200.43 07:34:30.511380 5MB Transz Response, FID: OXx003, QUERY_FILE_INFO 

29 10, 32,200.43 10.32.106.72 07:34:30.511889 SMB Trans2 Request, QUERY_FILE_INFO, FID: Ox003f, Query File Standard Info 
30 10, 32,106.72 10.32.200.43 07:34:30.512609 SMB Trans2z Response, FID: OX003f, QUERY_FILE_INFO 


ns2 Response, QUERY_PATH_INFO 
ans2 Request, QUERY_PATH_INFO, Query File Basic Info, Path: 
ans2 Response, QUERY_PATH_INFO 
uest, QUERY_PATH_INFO, Query File standard Info, Path: 
ans2 Response, QUERY_PATH_INFO 
ans2 Request, QUERY_FS_INFO, Query FS Attribute Info 
ans2 Response, QUERY_FS_INFO 
ns2 Request, FIND_FIRST2, Pattern: \a.txt 
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图 1 


“ 早期 CIFS 协 议 的 读 写 操作 都 是 同步 方式 的 。 如 图 2 所 示 ， 它 只 会 
在 收 


到 上 一 个 读 啊 应 (Read AndX Response) 之 后 ， 才 发 出 下 一 个 读 
请 求 (Read AndX Request) 。 这 种 方式 的 带宽 利用 率 很 低 ， 因 为 很 可 
能 TCP 发 送 窗 口 还 没有 用 完 ， 一 个 操作 束 完 成 了 。CIFS 的 设计 人 员 当 
时 可 能 没有 考虑 到 网 络 带宽 的 快速 发 展 。 


早期 的 NFS 上 束 没 有 这 个 问题 ， 如 图 3 所 示 ， 多 个 读 请 求 被 一 起 发 
出 去 了 【也 可 以 说 是 异步 的 ) 。 


Destination Time Protocol Info 
3 3 106.159 10.32.106.62 15.402581 NFS V3 READ Call (Reply In 292), FH:0x531352el offset:0 Len: 
14 10.32,106.159 10.32.106.62 15.402600 NFS V3 READ Call (Reply In 152), FH:0x531352el Offset:131072 
152 10.32,106.62 10.32.106.159 15.414443 NFS V3 READ Reply (Call In 14) Len:131072 
292 10.32,106.62 10.32.106.159 15.425442 NFS V3 READ Reply (Call In 13) Len:131072 
294 10.32,106.159 10,32.106.62 15.483389 NFS V3 READ Call (Reply In 446), FH:0x531352el offset:262144 
295 10.32,.106.159 10.32.106.62 15.483413 NFS V3 READ Call (Reply In 548), FH:0x531352el Offset:393216 
446 10.32,106.62 10.32.106.159 15.495391 NFS V3 READ Reply (Call In 294) Len:131072 
548 10.32.106.62 10.32.106.159 15.503637 NFS V3 READ Reply (Call In 295) Len:98076 


图 3 


地 好 CIFS 很 快 就 向 NFS 学 习 ， 等 到 Windows 7 出 来 的 时 候 ， 这 两 个 
问题 都 解决 了 。 当 然 早 期 的 NFS 协 议 也 有 落后 的 地 方 ， 比 如 对 文件 属 
性 的 管 9 理 过 于 简单 。 ee 也 已 经 和 CIFS 趋 同 
了 。 这 些 江 湖 暗 斗 只 有 专业 人 士 才 能 感觉 到 。 

竞争 往往 能 激发 意 想 不 到 的 创造 力 ， 这 两 个 协议 的 新 特性 就 是 如 
此 产生 的 。 无 论 是 早期 的 CIFS 还 是 NFS， 每 个 操作 都 是 在 各 自 的 网 络 
包 中 完成 的 。 即 便 不 太 罗 嗪 的 NFS 协 议 在 读 一 个 文件 之 前 ， 也 需要 通 
过 READDIRPLUS 操 作 获得 其 File Handle (FH) ， 再 通过 GETATTR 操 
作 获 得 该 File Handle 的 属性 ， 最 后 通过 ACCESS 和 READ 操 作 打 开 文 
件 。 图 4 显示 了 READ 之 前 的 三 个 操作 至 少 花 费 了 三 个 RTT (往返 时 
间 ) 。 | 

EE 
ee 


13 10. 32.106.159 10. 32.106.62 15.402581 NFS V3 READ Cal] (Reply In 292), FH: 0x531352el offset: 0 Len: 131 
14 10.32.106.159 10.32.106.62 15.402600 NF5 V3 READ Call (Reply In 152), FH: 0x531352el offset: 131072 Len 


图 4 


相 比 起 CIFS， 这 已 经 可 以 算是 极 简 主 义 了 。 不 过 NFSv4 中 又 提出 
了 一 个 全 新 的 理念 ， 称 为 “<COMPUND CALL” (复合 请 求 ) 。 客 户 端 
可 以 把 多 个 请 求 放 在 一 个 包 中 发 给 服务 器 ， 然 后 服务 器 也 在 一 个 包 中 
集中 回复 ， 这 样 就 能 在 一 个 往返 时 间 里 完成 多 项 操作 了 。 

道理 听 起 来 似乎 很 简单 ， 但 真正 做 起 来 并 不 容易 。 以 图 4 中 的 
READDIRPLUS + GETATTR + ACCESS + READ 为 例 ， 如 果 用 
COMPUND 方 式 ， 发 送 方 在 没有 收 到 READDIRPLUS 回 复 之 前 ， 怎 么 
知道 GETATTR 操 作 应 该 指定 什么 File Handle 呢 ? NFSv4 用 了 类 似 编程 
时 用 到 的 “变量 ”思维 来 实现 ， 首 先是 READDIRPLUS 操 作 所 得 到 的 File 
Handle 被 作为 变量 传 给 GETATTR 请 求 ， 接 着 GETATTR 操 作 得 到 的 文 
件 属性 又 传 给 ACCESS 和 READ“。 变 量 的 传递 完全 发 生 在 服务 器 端 ， 所 
以 客户 端 不 需要 参与 ， 也 就 没有 来 回 发 包 的 需要 。 

图 5 是 一 个 包含 了 7 个 操作 请 求 的 NFSv4 包 ，COMPUND 方 式 对 效 
率 的 提高 幅度 由 此 可 见 一 斑 。 我 认为 这 个 思路 值得 很 多 应 用 层 协议 参 
考 o 


Wi nfs v4 sample.pcap 【Wireshark 1.6.5 (SYN Rev 40429 from /trunk-1.6)] 


Elo Em ven go fore bpyyza gatties Toechory Jool Wien top | 
膨 亲 宙 久 新 | 鼎 因 茵 铺 吕 | 人 证 守 才 置业 | 加 国 QQQ 和 I 该 贸 罗 状 | 区 
ne 


no. Jrme [aas Sovce [Desnaton Protoco [Sze [Comatwe inio 习 


46 4,960475 0.001221 10.32,22.245 10,32.22.140 NFS 314 7008 v4 Call (Reply In 2 
47 4,961203 0.000728 10.32.22.140 10,32.22.245 NFS S90 7598 v4 Reply (call In “ 吉 
了 Amamm 42_ mm mm me 0 A 2 am hese “ad dy - 李 


DTransm1isston Control Prorocol, src port: 699 (699), Dst porT; 2049 (2049), Seq: 723511071, Ack: 16733160 二 
四 Remote Procedure Call, Type:Ccall XID:0x8460c8f1 
3 Network File Systew 

[Program Version: 4] 


因 Tag: <EMPTY> 
minorversion: 0 
9 operations (count: 7) 
3 opcode: PUTFH (22) 
nfilehandle 
opcode: SAVEFH (32) 
国 opcode: OPEN (18) 
Opcode: GETFH (10) 
H opcode: GETATTR (9) 
opcode: RESTOREFH (31) 
困 opcode: GETATTR (9) 
[main opcode: opEN (18)] 


4 
@| Procedre (rfs,procedre_ vs) | peckets: 77 Deplayed 77 Marked: 0Losd Uns: 0:00,000 Ty 


图 5 


说 完 NFS 的 最 新 进展 ， 我 们 再 回头 看 看 CIFS 已 经 发 展 成 什么 样 
了 。 虽 说 现在 的 微软 已 经 没有 当年 风光 了 ， 但 是 在 对 CIFS 协 议 的 改进 


上 ， 绝 对 称 得 上 亮丽 的 一 笔 ， 在 我 看 来 已 经 远 远 把 NFS 抛 到 脑 后 了 。 
在 Windows 8 和 Windows 2012 所 文 持 的 最 新 CIFS 版 本 SMB3 上 ， 出 现 了 
很 多 适应 当前 需求 的 革命 性 创新 。 

不 知道 你 是 否 记 得 《剖析 CIFS 协议 》 一 文中 提 到 的 “常见 问题 
3” 及 其 答案 ? 当 我 通过 CIFS 复 制 abc.txt， 然 后 粘贴 到 同一 目录 生成 abc- 
Copy.txt 时 ， 了 网络 包 如 网 6 所 示 。 


90 10. 32.2 106.7 15:23:58 530 SMB2 Read Request Len:16152 off:0 File f a x 
10710.32.106.77 10.32.200.43 15:23:58.638887 SM82 Read Response OO 
1 00.4 32.1 15 .639 M2 Write Request Len ff:0 File: nmfsi\abc - Copy.txt 
11610.32,106.77 10.32.200.43 15:23:58.640596 SMB2 Write Response OO 
137 10. 32., 20 10. 32.106. 15:23;58 5 SM52 Ir eque ILE_INFO 2_FELE_BASIC I rafs1 py txt 


图 6 


这 说 明 复 制 粘贴 过 程 实际 是 这 样 的 。 

1. 客户 端 发 送 读 请 求 给 服务 器 。 

2， 服务 器 把 文件 内 容 回 复 给 客户 端 (这 些 文件 内 容 被 暂时 存在 客 
户 端 内 存 中 ) 

3. 客户 端 把 内 存 中 的 文件 内 容 写 到 服务 器 上 的 新 文件 abc- 
Copy.txt 中 。 

4. 服务 器 确认 写 操作 完成 。 

在 这 个 过 程 中 ， 文 件 内 容 通 过 第 2 步 和 第 3 步 在 网 络 上 来 回 跑 了 两 
次 ， 是 很 浪费 带宽 资源 的 。 为 此 SMB3 设 计 了 一 个 叫 “Offload Data 
Transfer” 的 功能 ， 能 够 把 过 程 变 成 这 样 。 

1. 客户 端 癌 服务 硕 发 送 复制 请 求 。 

2. 服务 需 给 了 客户 端 一 张 token。 

3. 客户 端 利 用 这 张 token 给 服务 器 发 写 请 求 。 

4. 服务 器 按 要 求 写 新 文件 。 

5. 服务 需 告 诉 客户 端 复制 已 经 完成 。 

图 7 显示 了 这 两 种 复制 方式 的 差别 ， 实 心 箭 头 表示 文件 内 容 的 流 


图 7 


可 见 在 SMB3 的 复制 过 程 中 ， 我 们 只 是 在 网 络 上 传输 了 一 些 指 
令 ， 而 文件 内 容 并 没有 出 现在 网 络 上 ， 因 为 复制 数据 完全 由 服务 器 自 
己 完 成 了 。 假 如 是 复制 一 个 大 文件 ， 那 对 性 能 的 提升 幅度 是 非常 可 观 
的 ， 你 甚至 可 以 在 数秒 钟 里 复制 几 个 GB 的 数据 ， 远 超 网 络 的 瓶颈 。 在 
虚拟 化 的 应 用 场合 中 ， 通 过 这 个 机 制 克 隆 一 台 虚 拟 机 也 可 以 变 得 很 
快 。SMB3 的 另 一 个 破天荒 改进 是 在 CIFS 层 实现 了 负载 均衡 。 与 其 他 
CIFS 版 本 不 同 ， 一 个 SMB3 Session 可 以 基于 多 个 TCP 连 接 。 如 图 8 所 
示 ，Windows 8 服务 器 上 的 两 个 网 卡 ， 可 以 分 别 和 文件 服务 器 上 的 两 
个 网 卡 建立 TCP 连 接 ， 然 后 一 个 SMB3 Session 就 基于 这 两 个 连接 之 
上 。 当 其 中 一 个 TCP 连 接 出 现 故 障 ， 比 如 网 卡 坏 掉 时 ，SMB3 连 接 还 可 
以 继续 存在 。 


TCP Session | TCP Session 2 


图 8 


考虑 到 现在 全 球 化 的 大 公司 越 来 越 多 ， 有 了 很 多 总 部 和 分 部 ， 所 
以 远 距 离 的 文件 传输 束 成 了 大 问题 。 比 如 说 ， 中 国 总 部 的 机 房 中 存在 
一 个 大 文件 ， 从 澳大利亚 分 部 访问 该 文件 是 非常 慢 的 。 尤 其 古 当 分 首 
中 有 很 多 用 户 需 要 访问 同一 个 文件 时 ， 相 同 的 内 容 就 需要 在 有 限 的 种 
宽 中 传输 多 次 。SMB3 提 出 了 一 个 叫 BranchCache 的 机 制 来 解决 这 个 问 
题 。 当 澳大利亚 分 部 的 第 一 个 用 户 访问 该 文件 时 ， 文 件 从 中 国 传输 过 
去 ， 然 后 就 被 缓存 起 来 (比如 存 到 分 部 的 专用 服务 器 上 ) 。 接 下 来 澳 


大 利 亚 分 部 如 果 有 其 他 用 户 访问 该 文件 ， 束 可 以 通过 文件 签名 从 缓存 
服务 器 上 找到 了 。 

这 个 机 制 听 上 去 有 点 “ 脑 洞 大 开 ” 的 意思 ， 不 过 我 在 实验 室 中 实施 
过 这 个 功能 ， 用 户 体验 还 是 非常 好 的 ， 当 然 也 增加 了 实施 和 购买 专用 
服务 右 的 开 文 。 

最 后 不 得 不 提 的 是 SMB3 的 一 个 “Continuous Availability” 特 性 。 以 
剖 很 多 三 商 的 文件 服务 器 号 称 文 持 Active/Standby (当前 待机 模式 ， 
即 文 件 服务 器 的 两 个 机 头 共享 硬盘 ， 当 一 个 机 头 宕 机 时 ， 能 即时 切换 

到 待机 的 机 头 上 。“ 即 时 ”这 个 词 实际 上 是 有 虚假 宣 传 几 性 的 因为 

SMB3 之 前 的 CIFS 版 本 把 文件 锁 之 类 的 信息 放 在 机 头 的 内 存 中 ， 新 的 
机 头 起 来 时 无 法 获得 这 些 信 息 ， 所 以 是 没 办 法 无 颖 地 提供 访问 的 ， 必 
须 让 客户 端 重新 访问 一 次 。 

SMB3 对 此 的 解决 方案 是 把 文件 锁 之 类 的 信息 存 到 硬盘 上 ， 所 以 
狐 机 头 起 来 时 便 可 以 获得 这 些 信息 ， 这 样 ， 提 供 无 颖 服务 束 成 了 一 种 
可 能 。 为 了 方便 理解 ， 0 图 ， 如 图 9 所 示 。 


图 9 


1. Windows 8 客户 问 通 过 机 头 1 访问 文件 ， 生 成 的 文件 锁 等 信息 
被 保存 在 便 盘 中 。 

2. 机 头 1 发 生 故 障 ， 切 换 到 机 头 2 上 ， 机 头 2 从 硬盘 中 获取 信息 。 

3，Windows 8 仍然 能 锁定 该 文件 ， 因 为 机 头 2 继承 了 机 头 1 的 信 
站 8 


LE 


DNS 小 科普 


有 一 些 技 术 ， 人 们 即便 每 天 都 在 使 用 ， 也 未 必 能 意识 到 它 的 存 
a 


DNS 束 是 这 样 一 种 技术 。 当 我 在 浏览 絮 上 输入 一 个 域名 时 ， 比 如 
www.example.com， 其 实 不 是 根据 该 域名 直接 找 到 服务 器 ， 
DNS 解 析 成 IP 地 址 ， 再 通过 IP 地 址 找到 服务 右 。 有 时 候 甚 至 不 用 输入 
任何 域名 ， 也 会 在 不 知 不 党 间 用 到 DNS。 比如 打开 公司 电脑 ， 用 域 账 
号 登录 操作 系统 ， 束 是 依靠 DNS 找 到 Domain Controller 来 验证 号 份 。 
室 不 伪 张 地 说 ， 如 果 有 一 天 突然 失去 DNS， 世 界 会 立即 陷入 混乱 。 


我 家 里 的 笔记 本 了 为 192.168.1.101 ，DNS 服务 器 了 为 
106.186.28.239。 如 果 在 打开 www.example.com 的 过 程 中 抓 了 包 ， 就 能 


看 到 图 1 所 示 的 解析 过 程 。 


No, Source Destination Time Protocol Info 
3 192.168.1.101 106.186.28.239 18:50:08.251806 ”DNS 
4 106.186.28. 239 192.168.1.101 18; 8. 5 1 


standard query A www.examp le.c 
50:08. 508236 DNS standard query response A 93.184 


笔记 本 : “请 问 www.example.com 的 A 记录 是 什么 ?” 
服务 器 : “是 93.184.216.119。” 


获得 IP 之 后 ， 笔 记 本 就 可 以 和 93.184.216.119 建 立 HTTP 连 接 了 。 
这 个 例子 中 提 到 的 A (Address) 记录 ， 指 的 是 从 域名 解析 到 IP 地 址 。 


如 有 果 你 经 常 处 理 DNS 包 ， 还 会 看 到 不 少 其 他 类 型 的 记录 。 


。PTR 记 录 : 与 A 记录 的 功能 相反 ， 它 外 
PTR 有 什么 作用 呢 ? 比如 IT 部 门 发 现 最 近 公 瑟 


EE 从 IP 地 址 解析 到 域名 。 
可 里 的 机 器 10.32.106.47 和 


YouTube 之 间 数 据 流量 很 大 ， 用 nslookup 一 查 PTR 记 录 就 知道 原来 是 阿 


满 在 上 班 时 间 偷 看 视频 了 ( 见 图 2) 。 


本 


学 root@shifmi:~ - 一 = 


吕 | 回 


[root@shifmi ~]# nslookup 10.32.106.47 


Server: 10.32.106.103 
Address; 10.32.106.103#53 
47.106.32.10.in-addr.arpa name = linpeiman-laptop.nas.com. 


You have new mail in /var/spool/mail/root 
[root@shifmi ~]# | 


网 络 包 显示 如 下 ( 见 图 3) 
nc 本 口 evcn co py Se 


No. Source Destinabon Time Protocol Info 
170 10. 32.106.159 10,32.106.103 2014-07-07 DNS5 Standard query Ox4ead PTR 47.106.32.10,in-addr,arpa 


| Frame 170: 85 bytes on wire (680 bits), £5 bytes captured (680 bits) 

‘mEthernet IT, Src: Intel_d4:4d:e2 (00:04:23:d4:4d:e2), Dst: Vmware_al:58:41 (00:50:56:al:58:41) 
EINternet Prorocol version 4, src: 10.32.106.159 (10.32.106.159), Dst: 10.32.106.103 (10.32.106.103) 
四 User Datagram Protocol, Src Port: 32829 (32829), Dst Port: domain (53) 


I Domain Nane System (query) 


图 3 


，SRV 记 杂 : Windows 的 域 管理 员 要 特别 关心 SRV 记 有 隶 ， 因 为 它 指 
回 域 里 的 资源 。 比 如 我 想 知道 我 们 公司 的 域 nas.com 里 有 哪些 DC， 只 
要 随便 在 一 台电 脑 上 查询 _ldap._tcp.dc._msdcs.nas.com 这 个 SRV 记 录 就 
可 以 了 。 如 果 你 也 想 查 贯 司 的 DC， 请 把 nas.com 改 成 正确 域名 即 可 。 
图 4 是 查询 过 程 的 截图 。 


ce Command Prompt - nslookup 


:\>nslookup 
efault Server: dcl.nas-con 
ddrecs: 18.32.186 .183 


> sct typec-SRU 

> _lilap. tcp.dc. nsdcs.nas.con 
eruer dcl-nas-con 

ddrecs: 160.32-196 .183 


ldap._tcp.dc._msdcs.nas.con SRU service location: 
priority a 
i188 
389 
dci.nas.con 
con SRU service location: 


prinrity 了 

veight i188 

port 389 

svr hostnane dc2.nas.con 
ldanp._tcp.dc._msdcs .nas.con SRU service location: 

priority a 

veight i188 


port = 389 
svr hostnane = enc-3xijfh5sygog.nas.com 
-nas -con internet address = 18.32.106 .183 
-nas-con internet address = 18.18.108.183 
-nms .con internct mddrcss ~ 18.32.1086.113 
internet address = 18.10.16-113 


网 络 包 显 示 如 下 ( 见 图 5) 


"FE= wo “> 


No, Destinatio! Protocol Info 


3106 10, 32,106,103 10.32.106.159 2014-07-07 07:04:03 DNS Standard query SPE QOx0a93 SRV 0 100 389 dcl.nas.cc 
4 


上 田 Frame 也 06; 198 byte5 on wire 人 bits), 198 bytes captured [5B4 Ee 
E Ethernet II, Src: Vmware_al:58:41 (00:50:56:al:58:41), Dst: Intel_d4:4d:e? (00:04:23:d4:4d:e2) 
P 上 yf 下 a t 了 72 1 


| tagram Port: qd 
| 田 Di Name a 0 


。CNAME 记 录 : 又 称 为 Alias 记 录 ， 就 是 别名 的 意思 。 比 如 我 的 
服务 器 10.32.106.73 同 时 提供 网 页 (www) 、 邮 件 (mail) 和 地 图 
(map) 服务 。 图 6 是 该 服务 器 在 DNS 中 的 配置 ， 其 中 www 的 A 记录 指 
向 了 10.32.106.73， 还 有 两 个 别名 记录 mail 和 map 指 向 了 www。 客 户 端 
访问 这 3 个 域名 时 ， 都 会 被 定 癌 到 10.32.106.73 上 面 。 


dnsmomt ~ [DNS\DC1\Formard Lookup zoncs\nas.com| 
昌 FE action yen Window Hp 
车 外 | 固 | 四 | 枚 下 蕊 | 马 国 | 自 曾 和 鲁 


ly DNS Nascom 16+re-ctd:s) 
-9 10,.32,106,113 
BCL 
日 iD Forwsrd Lookup Zonas 局 EN 
_msdcs,nas,com Alas (CNAMEY WNas ,com 
Alias (OAME) WY, es, OOM 


别名 是 如 何 起 作用 Ck 当 客 户 端 查询 mailnas.com 或 者 
map.nas.com 时 ，DNS 服 务 恬 通过 www.nas.com 找 到 10.32.106.73， 然 后 
把 后 坟 壕 加 台 客 户 端 。 图 7 是 访问 mailnas.com 时 抓 的 包 。 


Destin tion Time Protocol Info 
59 32- 6-103 5:; 18:;49 


那 直接 把 10.32.106.73 配 给 mail 和 map 可 以 吗 ? 当然 是 可 以 的 ， 但 
如 有 果菜 天 要 改变 这 个 IP 地 址 ， 就 不 得 不 在 DNS 上 修改 www、mail 和 
map 这 3 项 记录 了 。 而 在 使 用 别名 的 情况 下 ， 只 要 修改 www 一 项 的 卫 就 


行 了 ，mail 和 map 都 没有 必要 改动 。 别 名 的 使 用 节省 了 管理 时 间 ， 站 长 
们 应 该 会 喜欢 这 个 功能 。 

了 解 完 DNS 的 基本 功能 之 后 ， 我 们 再 来 看 看 它 的 工作 方式 。 

刚才 说 到 我 的 笔记 本 在 解析 www.example.com 时 用 到 了 DNS 服务 
句 106.186.28.239。 其 实 这 人 台 有 上 服务器 非常 可 疑 ， 因 为 我 得 到 它 属 于 美国 
一 家 私有 云 提供 商 ， 不 知道 通过 什么 方式 配 到 我 电脑 上 的 。 世 界 上 还 
有 很 多 这 样 不 权威 的 DNS 服务 器 ， 融 连 电 信和 有 线 通 等 宽带 提供 商 的 
DNS 服务 器 也 是 不 权威 的 。 所 谓 “ 不 权威 >， 并 不 是 指 它们 一 定 不 值得 
信任 ， 而 是 因为 它们 本 身 不 包含 DNS 的 注册 信息 。 当 收 到 新 的 DNS 查 
询 时 ， 它 们 要 从 权威 DNS 服 务 器 (属于 一 个 叫 ICANN 的 非 营 利 性 组 
织 ) 那里 查 到 结果 ， 然 后 再 返回 给 客户 端 。 

从 本 文 的 第 一 个 抓 包 中 ， 我 们 只 知道 不 权威 DNS 服务 器 成 功 解析 
了 www. example.com， 却 不 知道 它 是 怎么 做 到 的 。 有 可 能 是 它 收 到 我 
的 请 求 之 后 ， 悄 悄 地 查询 了 权威 DNS 服务 器 ， 然 后 告诉 我 答案 。 这 种 
工作 方式 称 为 递归 查询 ， 其 特点 是 客户 端 (我 的 笔记 本 ) 完全 依赖 服 
务 器 〈 那 台 可 疑 的 DNS 服务 器 ) 直接 返回 结果 。 

除了 递归 之 外 ， 还 有 一 种 叫 欠 代 奏 询 的 方式 ， 其 特点 是 客户 端 先 
查 到 根 服 务 器 的 地 址 ， 再 从 根 服务 器 查 到 权威 服务 器 ， 然 后 从 权威 服 
务 絮 查 ..….... 直到 返回 想 要 的 结果 。 用 dig 命 令 加 上 “+trace” 参 数 可 以 强 
迫 客 户 端 采用 迭代 查询 。 图 8 了 驶 是 查询 的 整个 过 程 。 可 见 友 代 碍 询 要 比 
递归 得 询 麻 烦 得 多 ， 但 最 后 解析 到 的 结 采 倒是 一 致 的 。 


D MAG_poC\hook\dns)dig ww .exanple -cemn +*trace 
1 《KK77 DiG 9.7.2-P2 《《7>7 www examnple .comn *trace 
5 global options: *cnd 


笔记 本 从 蕊 中 一 训 根 慨 务 器 理 词 到 13 台 
com 的 顶 衣 域名 肥 务 器 。gld4 是 goesic 
ep topleyel domalr 的 韦 写 。 


17752 IN d.root-—sery 
Received 292 bytes from 186 .186.28.2 3 了 5186 .1856 -28.239》 


* | binans5cerver 芍 IF 为 132.4313353， 


NE 
RS 
ns 
NS 
NS 
NS 
RE 
NS 
NS 
NS 
NS 
NS 
ns 
3945: 
nS 
Hs 
MS 
NS 
NS 
NS 
NS 
NS 
NS 
NS 
HS 
NS 
nS 


8885383333333 : 


172889 IN 
; Received 493 bytes From 199. 


xanple .conm. 172888 IN NS .iana—Servers. Net. 
1728868 IN NS hb .iana~servers-net - 


xanple .con. 
3 Received 169 bytes Fron 192.26.92.30853Ce.gtld-servers.net) in 312 
第 记 本 从 bh insne serves: 覃 询 到 
.0xanplo .com. 86468 33.184.216 .119 Ww. example comAQIP93 184 216. 119 
ida om. 172888 
172889 IN 


有 sr 185 bytes Fromn 199 .43.133 . i din net) “312 ns 


这 个 迭代 查询 的 网 络 包 如 图 9 所 示 。 从 中 可 以 看 到 笔记 本 
192.168.1.101 发 出 了 7 个 查询 ， 才 得 到 最 终 的 结 


No. Source Destinsbon Time Protocol Info 


如 有 果 这 两 个 抓 包 还 不 足以 说 明 速 归 和 过 代 的 差别 ， 我 们 可 以 用 生 
活 中 的 例子 来 类 比 。 


“ 递归 查询 ， 老板 给 我 发 个 短信 : “ 阿 满 ， 附 近 哪 个 川菜 饮 最 正 
宗 ? ”我 屁 显 屁 丰 地 去 问 我 的 吃 货 朋友 二 胖 ， 二 胖 又 问 了 他 的 女友 川 妹 


子 ; 川 妹子 把 答案 告诉 二 胖 ， 二 翌 再 告诉 我 ， 最 后 我 于 作 很 专业 的 样 
子 回 复 了 老板 。 这 个 过 程 对 老板 来 说 束 是 递归 查询 。 


“ 从 代 查询 : 老板 说 :“ 阿 满 ， 推 荐 一 下 附近 的 洗 脚 店 喘 ? ”我 立 
即 产 辞 拒绝 : “这 个 我 不 知道 ， 不 过 你 可 以 问 问 公关 部 的 张 总 。?” 老 板 
去 找到 张 总 ， 又 被 指引 到 销售 部 的 小 李 ， 最 终 从 小 李 那 里 问 到 了 。 这 
个 过 程 吏 是 欠 代 碍 询 ， 因 为 是 老板 目 己 一 步 一 步 地 碍 到 答案 。 


说 完 DNS 的 工作 方式 ， 我 们 再 来 认识 它 的 一 个 很 有 用 的 特性 。 我 
的 DNS 中 有 两 个 叫 “Isilon-Cluster”* 的 同名 A 记录 ， 分 别 对 应 着 IP 地 址 
10.32.106.51 和 10.32.106.52。 当 我 连续 执行 两 次 “nslookup Isilon- 
Cluster.nas.com” 时 ， 抓 到 的 网 络 包 如 图 10 所 示 。 


P of lnf 


No. Source Destinztion 
1 10.32.106.159 10.32.106,103 
2 10.32.106.103 10.32.106.15' 


59 


图 10 


可 见 两 次 返回 的 卫 地 址 是 一 样 的 ， 但 顺序 却 是 相反 的 。 如 采 我 执 
行 第 三 次 nslookup， 结 果 又 会 跟 第 一 次 一 样 ， 这 了 束 是 DNS 的 循环 工作 
(round-robin) 模式 。 这 个 特性 可 以 广泛 应 用 于 负载 均衡 。 比 如 某 个 
网 站 有 10 人 台 Web 服 务 锅 ， 管 理 员 就 可 以 在 DNS 里 创建 10 个 同名 记录 指 
问 这 些 服务 器 的 卫 。 由 于 不 同 客户 端 得 到 的 结果 顺序 不 同 ， 而 且 一 般 
会 选用 结 采 中 的 第 一 个 IP， 所 以 大 量 客户 端 束 会 被 均衡 地 分 配 到 10 台 
Web 服 务 器 上 。 随 着 分 布 式 系统 的 流行 ， 这 个 特性 的 应 用 场景 将 会 越 
来 越 多 ， 比 如 本 例 中 的 分 布 式 存储 设备 Isilon。 

说 了 这 么 多 DNS 的 好 话 ， 那 它 有 没有 缺点 呢 ? 当然 有 ， 而 且 还 不 


少 。 


。 束 像 雕 牌 洗衣 粉 被 周 佳 牌 模仿 一 样 ，DNS 上 也 存在 山寨 域名 。 
比如 招商 银行 的 域名 是 wwwcmbchinacom ， 但 是 


www.cmbchina.com.cn 和 www.cmbchina.cn 却 不 一 定 属于 招行 。 如 果 这 
两 个 域名 被 指向 外 表 和 招行 一 样 的 钓鱼 网 站 ， 束 可 能 会 骗 到 部 分 用 户 
的 银行 账号 和 密码 。 


。 如 果 DNS 服 务 器 被 恶意 修改 也 是 很 危险 的 事情 。 比 如 登录 招行 
网 站 时 虽然 用 了 正确 域名 www.cmbchina.com， 但 由 于 DNS 服务 器 是 黑 
客 欣 制 的 ， 很 可 能 解析 到 一 个 钓鱼 网 站 的 IP 。 


“即便 羡 配 了 正规 的 DNS 服务 右 ， 也 是 有 可 能 中 招 的 。 比 如 正规 
的 DNS 服 务 右 遭遇 缓冲 投 毒 之 后 ， 也 会 变 得 不 可 信 。 


。 DNS 除 了 能 用 来 欺骗 ， 还 能 当做 攻击 性 武器 。 著 名 的 DNS 放 大 
攻击 就 很 让 人 头疼 。 下 面 是 我 在 执行 “dig ANY isc.org” (解析 isc.org 的 
所 有 信息 ) 时 抓 的 包 ， 可 见 6 号 包 发 出 去 的 请 求 只 有 25 字 节 〈 见 图 11 底 
部 的 Length: 25) ， 而 11 号 包 收 到 的 回复 却 能 达到 3111 字 和 ( 见 图 12 底 
部 的 Length 3111) ， 竟 然 放 大 了 124 倍 。 


No, Source Destination Time Protocol Info 
6 192.168.1.101 106.186.28.239 18:;20:05 DNS Standard query ANY isc.org 
11 106.186.28.239 192.168.1.101 18:20:05 DNS standard query response RRSIG SPF RRSIG 


Ud 


四 Frame 6:; 81 bytes on wire (648 bits), 81 bytes captured (648 bits) 
由 Ethernet II, Src: dO:df:9a:cf :88:30 (dO:df:9a:cf:88:30), Dst: 5cC:63:bf:71:1c:4C (5cC:63:b 
加 Internet Protocol, src: 192.168.1.101 (192.168.1.101), Dst: 106.186.28.239 (106.186.28.2 
由 Transmission Control Protocol, Src Port: 56344 (56344), Dst Port: domain (53), Seg: 1, A 
口 Domain Name System (query) | 

Response In: 11] 
Length: 25 


图 11 


No， Source Destination Time Protocol Info 
6 192.168.1.101 106.186.28.239 18:20:05 DNS Standard query ANY isc.org 
11 106.186.28.239 192.168.1.101 18:20:05 DNS Standard query response RRSIG SPF 
4 


田 Frame 11: 347 bytes on wire (2776 bits)，347 bytes captured {2776 bits) 
田 Erhernet II, SrC: 5c:63:bf:71:1c:4cC (5C:63:bf:71:1C:4C), DstT: do:df:9a:cf:88:30 (( 
由 Internet Protocol, SrC: 1Ub.186b. 28.2z349 (106.1806.28.239), Dst: 192.168.1.101 (CL942.] 
四 Transmission Control Protocol, src Port: domain (53), Dst Port: 56344 (56344), Sec 
田 [3 Reassembled TCP Segments (3113 bytes): #8(1410), #9(1410), #11(293)] 

] Domain Name System (response 


[Request In: 6] 
[Time: 0.208387000 seconds] 
Length: 3111 


图 12 


假如 在 6 号 包 里 伪造 一 个 想 要 攻击 的 源 地 址 ， 那 该 地 址 殊 会 莫名 收 
到 DNS 服务 右 3111 字 节 的 回复 。 利 用 这 个 放大 效应 ， 墨 客 只 要 控制 少 
量 电脑 束 能 把 一 个 大 网 站 拖 扰 了 。 


一 个 古老 的 协议 一 一 FTP 


你 也 许 难 以 想象 ，FTP 协 议 在 1971 年 就 出 现 了 。 在 那 时 ， 现 代 的 
网 络 模型 还 没有 形成 ， 所 以 FTP 完 全 称 得 上 网 络 界 的 活化 石 。 

它 的 发 明 人 也 很 有 意思 ， 是 印度 工程 师 Abhay Bhushan。 要 知道 早 
期 的 网 络 协议 起 章 者 几乎 是 清一色 的 欧美 工程 师 ，Bhushan 能 够 占 得 一 
局 之 地 绝对 称 得 上 传奇 。 虽 然 看 起 来 文 质 彬 彬 ， 但 实际 上 Bhushan 热 爱 
运动 ， 尤 其 擅长 马拉松 和 铁人 三 项 (我 印象 中 计算 机 科学 之 父 Alan 
Turing 也 是 位 长 跑 健 将 ) 8 

一 个 古老 的 协议 能 有 如 此 活力 ， 一 定 是 有 深层 原因 的 。FTP 的 过 
人 之 处 ， 束 在 于 它 用 最 简单 的 方式 实现 了 文件 的 传输 一 客户 端 只 需要 
输入 用 户 名 和 密码 ， 就 可 以 和 服务 妖 互 传 文件 了 ; 有 的 甚至 连用 户 名 
和 密码 都 不 用 (匿名 FTP) 。FTP 常 被 用 来 传播 文件 ， 尤 其 是 免费 软 
件 ; 男 一 个 广泛 应 用 是 采集 日 志 ， 我们 可 以 让 服务 器 发 生 故 障 之 后 ， 
目 动 通过 FTP 把 日 志 传 回 厂商 。 这 些 场 合 之 所 以 适合 FIP 而 不 是 NFS 或 
者 CIFS， 束 是 因为 它 实现 起 来 更 加 简单 。 

一 个 软件 使 用 起 来 简单 ， 并 不 意味 着 它 的 底层 设计 也 很 简单 。 如 
果 你 抓 了 一 个 FTP 的 网 络 包 ， 乍 一 看 会 觉得 非常 复杂 ， 尤 其 是 在 端口 
号 的 管理 上 。 在 我 的 实验 室 中 ， 我 从 Windows 客 户 端 登录 了 一 次 FTP 服 
务 器 ， 然 后 下 载 了 一 个 叫 linpeiman.txt 的 文件 。 我 们 先 来 看 看 登录 的 过 
程 ( 见 图 1) 。 


本 
国 Administrator: C\Windows\system32\cmd.exe 


C:\>ftp 10.32.106.112 
Ee to 10.32.1856.112 
220 serv P72 Ep server 【EMC-SNRS，8.1.1.33) readv. 
User eT 32 6.112:(none)): linpeiman 

Be ee for linpeiman. 

Password : 

全 UNIX User linpeiman logged i 
« 咱 


图 1 


接 


征 由 客户 端 发 起 的 三 次 握手 。 唯 一 值得 记 住 的 是 FTP 服 务 


口 21。 


现在 来 分 析 5、7、 


下 来 看 看 登录 过 程 的 网 络 包 ， 前 三 个 包 无 需 解析 内 图 2) ， 束 
磺 的 控制 端 


No. Source Destination Time Protocol jnf 
1 10.32.200.41 10. 32. 106.112 2014-06-12 10:00:40 TCP 53431 > ftp [SYN] Seq=D win=8192 Len=0 M55=1428 


310.32.200.41 10.32.106.112 2014-06-12 10:00:40 Tcp 53431 > ftp [ACK] Seq=1 Ack=1 Win=8192 Len=D 
4|[ 


byres caprured a bif 2 


pp 


:0a:68:80:2 : :80 (ec:30:91:;e3;a6:80 
辐 te Version 10. 32.200.41 (10. 32. 200. a Ce 10. 32. ee 112 (10.32.106.112) 


图 2 


8、10、11 号 包 的 过 程 ( 见 图 3) 。 


No, Source ime Protocol Info 
5 10- 32-106-112 10.32.200.41 2014-06-12 10:00:40 FTP Response: 220 server_2 FTP server (EMC-SNAS: 8.1.1.33) ready 
7 10.32.200.41 10.32.106.112 2014-06-12 10:00:42 FTP Request: USER linpeiman 
8 10.32.106.112 10.32.200.41 2014-06-12 10:00:42 FTP Response: 331 Password required for linpeiman. 
10 10.32.200.41 10.32.106.112 2014-06-12 10:00:;45 FTP Request: PASS 123456 
2014-06-12 10:00:45 FTP 


11 10. 32.106.112 10.32.200.41 Response: 230 UNIX User linpeiman 1oqqed in- 
看 怖 


图 3 


5 号 包 : 


服务 大 


“我 准备 好 接受 访问 啦 ， 顺 便 说 一 下 我 是 一 


的 存储 ， 版 本 号 8.1.1.33。” 
7 号 包 : 


客户 端 


“我 想 以 用 户 名 linpeiman 登 了 水 。” 


8 号 包 : 


服务 右 


“ 那 你 把 linpeiman 的 密码 告诉 我 。” 


10 号 包 .: 


客户 站 : 


“密码 是 123456。，” 


11 号 包 : 


台 EMC 公 司 


服务 器 : “密码 正确 ，linpeiman 登 录 成 功 。” 

从 以 上 分 析 可 见 ，FTP 是 用 明文 传输 的 ， 连 我 的 密码 123456 都 可 
以 被 Wireshark 解 析出 来 。 如 有 果 对 安全 的 要 求 非常 高 ， 驶 不 能 采用 这 种 
方式 。 接 下 来 再 看 下 载 文件 的 过 程 〈 见 图 4) 。 


| 
葬 Administrator C:\Windows\system3 Ncmdaxe 


ftp> get linpeiman. txt 

200 PORT command successful. 司 
156 0pening ASCIIT mode data connection for "linpeiman.txt” (40 bytes}.— 
226 Transfer complete. 

ftp: #1 bytes received in 0.90Seconds #1.80Kbytes/sec. 

ftp> bye 

2 Goodbye. = 


图 4 


现在 分 析 下 载 过 程 的 网 络 包 ( 见 图 5) 。 


No. Source Destination Time Protocol Info 
13 10, 32.200.41 10.32.106.112 2014-06-12 10;00;51 FTP Request; PORT 10,32,200,41,208,185 


图 5 


13 号 包 : 
客户 端 : “我 想 从 IP=10.32.200.41， 端 口 为 208x256+185=53433 连 
接 你 的 数据 端口 〈 公 式 中 的 256 为 约定 好 的 常数 ) 。” 


14 号 包 .: 

服务 絮 : “可 以 的 ， 我 同意 了 。” 

15 号 包 

客户 端 :“ 那 我 想 下载 文 件 linpeiman.txt。” 
22 号 包 


服务 器 :“ 给 你 传 了 。” 
上 面 这 些 包 并 没有 真正 传输 文件 内 容 ， 我 们 接着 看 ( 见 图 6) 。 


No Source Destination Time Protoco|l Info 


18 10. 32-106.112 10.32.200.41 2014-06-12 10:00:51 TCPp frp-data > 53433 [ACK] Seq=1 Ack=1 Win=55536 
19 10. 32.106.112 10.32.200.41 2014-06-12 10:00:51FTP-DATAFTP Data: 41 bytes 


21 10.32.200,41 10.32.106.112 2014-06-12 10:00:51 TCcP 53433 > ftp-data [ACK] Seq=1 Ack=43 Win=66304 


24 10.32.106,112 10.32.200.41 2014-06-12 10:00:51 TCcPp ftp-data > 53433 [ACK] seq-43 Ack-2 Win-65536 
4 四 


忆 Frame 19; 107 bytes on wire (856 bits), 107 bytes captured (B56 bits) 

| 田 Ethernet II, srCc: Cisco_e3;:a6:80 (ec;30:91:e3:a6:80)，DsT: De11_68;80:28 (5C:26:0a:68:80:28) 

| 田 Internet Protoco] Version 4, Src: 10.32.106.112 (10.32.106.112), Dst: 10.32.200.41 (10.32.200.41) 

加 Transmission Control Protoco]l, Src Port: ftp-data (20), Dst Port: 53433 (53433), Seq: 1, Ack: 1, Len: 4 
| FTP Data (Life is tough. Wireshark makes it easy.\r\n) 


图 6 


16、17、18 写 包 也 是 三 次 握手 ， 不 过 这 次 发 起 者 是 FTP 服 务 器 。 
服务 需 的 端口 号 采用 了 20， 客 户 端的 端口 则 为 之 前 协商 好 的 53433。 

19 号 包 : 

服务 器 :“ 给 你 文件 内 容 (文件 内 容 “Life is tough. Wireshark makes 
it easy.” 可 见于 图 6 中 的 底部 ) 。” 

20、21、23、24 号 包 为 四 次 挥手 过 程 ， 表 示 数 据 传 输 结束 ，TCP 
连接 关闭 了 。 

从 以 上 分 析 可 见 ， 客 户 端 连接 FTP 服 务 右 的 21 端 口 仅 仅 是 为 了 传 
输 控制 信息 ， 我 们 称 之 为 “控制 连接 ”。 当 需要 传输 数据 时 ， 就 重新 建 
本 一 个 TCP 连 接 ， 我 们 称 之 为 “数据 连接 ”*。 随 着 文件 传输 结束 ， 这 个 
数据 连接 就 目 动 天 闭 了 。 不 但 在 下 载 文 件 时 如 此 ， 惑 连 执行 ls 命令 来 
列举 文件 时 ， 也 需要 新 建 一 个 数据 连接 。 在 我 看 来 这 不 是 一 种 高 效 的 
方式 ， 因 为 三 次 握手 和 四 次 挥手 就 用 掉 7 个 包 ， 而 ls 命令 的 请 求 和 响应 
往往 只 需要 2 个 包 ， 就 像 开 着 卡车 去 送 快递 一 样 不 经 济 。 图 7 显示 了 这 


客户 端 ' 


图 7 


我 伦 了 很 长 时 间 来 思考 Bhushan 先 生 为 何 把 FTP 的 控制 连接 和 数据 
连接 分 开 来 ， 不 过 至 今 还 是 不 能 领悟 。 我 唯一 能 想到 的 好 处 是 连接 分 
开 后 ， 残 有 机 会 在 路 由 器 上 把 控制 连接 的 优 移 级 提高 ， 免 得 被 数据 传 
输 影 响 了 控制 。 举 个 例子 ， 当 文件 下 载 到 一 半 时 我 们 突然 反悔 了 ， 束 
可 以 Abort (终止 ) 这 次 下 载 。 如 果 Abort 请 求 是 通过 优先 级 较 高 的 控 
制 连接 发 送 的 ， 也 许 能 完成 得 更 加 及 时 。 当 然 我 的 猜测 可 能 是 错 的 ， 
20 世 纪 70 年 代 的 路 由 絮 也 许 根 本 不 支持 优先 级 。 

如 果 你 为 FTP 配 置 过 防火 墙 ， 还 会 发 现 这 种 方式 带 来 了 一 个 更 加 
严重 的 问题 一 由 于 数据 连接 的 三 次 握手 是 由 服务 器 并 主 动 发 起 的 (我 
们 称 之 为 主动 模式 ) ， 如 果 客 户 端的 防火 墙 阻挡 了 连接 请 求 ， 传 输 不 
束 失 败 了 吗 ? 磁 到 这 种 情况 时 ， 我 建议 你 试 一 下 FTP 的 被 动 模式 。 图 8 
是 在 被 动 模式 下 抓 到 的 包 。 由 于 被 动 模式 的 登录 过 程 和 主动 模式 一 


Destination 

quest: PASV 

Response: 227 Entering Passive Mode 
uest: RETR 


Req! g Tinpei 
Response: 150 Opening BINARY mode data Cc ction For “linpeiman.t: 


图 8 
24 号 包 : 
客户 端 : “我 想 用 被 动 模式 传输 数据 。” 
25 号 包 .: 


服务 器 : “你 可 以 连接 到 IP=10.32.106.112 ， 端 口号 为 
240x256+217=61657 (公式 中 的 256 为 约定 好 的 常数 ) 。” 


29 写 包 .: 
客户 端 : “我 想 下 载 linpeiman.txt。” 
30 写 包 .: 


服务 器 : “给 你 传 了 。” 
上 面 这 些 包 并 没有 真正 传输 文件 内 容 ， 我 们 接着 看 ( 见 图 9) 


INo. Source Destination Time Protorol Info 
28 10.32.106.107 10.32.106.112 2014-06-12 15:58:28 TCPp 33001 > es Bs Seq=1 ACck=1 Win=5856 Len=0 TSval=! 


31 10.32.106.112 10. 32.106.107 2014-06-12 15:58;28FTP-DATA FTP Data 
32 10. 32.106.107 10.32.106.112 2014-06-12 15:58:28 TCP 33001 > 61697 ea Seq=1 Ack=41 Win=5856 Len=0 T5val: 


35 10. 32.106, 112 10.32.106.107 2014-06-12 15:;58:28 TCP 61657 > 33001 [ACK] Seq=42 Ack=2 Win=655365 Len=0 T5Va 
1 mie nl 


Frame 31; 106 by A bi ured (848 bi 

5 = net II， ee ne 这 要 (LD , rt Intelcor. 0 la (a0:36:91:11:02:1a 

EH Internet Protocol Version 4, Src: 10.32.106.112 (10,32.105.112), Dst: 10.32,106.107 (10.32.106,107) 

E Transmission Control Protocol, src port: 61657 (61657), Dst Port: 33001 (33001), seq: 1, ack: 1, Len: 40 
FTP Data (Life is tough. wireshark makes: it Easy.Nn) 


图 9 


26、27、28 号 包 是 数据 连接 的 三 次 握手 ， 可 见 这 一 次 由 客户 端 主 
动 发 起 (所 以 对 服务 器 来 说 是 被 动 的 ) ， 连 接 的 服务 器 端口 为 之 前 协 
商 好 的 61557。 

31、32、33、34、35 号 包 完 成 了 文件 内 容 的 传输 ， 然 后 关闭 数据 
和 连接。 同样 从 图 9 底部 可 以 见 到 该 文件 的 内 容 : Life is tough. Wireshark 
makes it easy. 


最 后 我 在 FTP 命 令 行 中 打 了 个 “bye” 命 令 〈 见 图 10) 。 
加 Administrator Cd 


tp> bye 
21 Boodbwe . 


4| 


图 10 


Goodbye 过 程 的 网 络 包 如 图 11 所 示 。 


No. Source Destination Time Protocol Info 
39 10.32.106.107 10.32.106.112 2014-06-]2 15:58:29 FTP Request: QUIT 
40 10.32.106.112 10.32.106.107 2014-06-12 15:58:29 FIP Response: 221 Goodbye. 


42 10.32.106.107 10.32.106.112 2014-06-12 15:58:29 TCP 36115 > ftp [ACK] seq=107 Ack=442 Win= 


44 10.32.106.112 10.32.106.107 2014-06-12 15:58:29 TCcp ftp > 36115 [ACK] seq=443 Ack=108 Win=: 


图 11 


39 号 包 .: 

客户 端 : “我 要 退出 啦 。” 

40 号 包 .: 

服务 器 : “好 的 ，Goodbye!”(FTP 是 我 所 知道 最 讲 礼 仪 的 协 
议 。) 


41、42、43、44 号 包 是 四 次 挥手 过 程 ， 断 开 控制 连接 ， 完 成 了 一 
次 FTP 的 生命 周期 。 

你 也 许 想 问 ， 那 如 何 指定 客户 端 采用 主动 还 是 被 动 模式 昵 ? 很 多 
FTP 客 户 端 软件 都 有 这 个 选项 。 比 如 图 12 是 winSCP 上 的 和 截图， 选中 
Passive mode 即 表示 被 动 模式 。 


[m WinSCP Login I 
Session Connecton 
:… Stored eeseione Passye mode 
Lasgnrg je ; 
Environment 局 Optimizs connection buffer size 
-- Drectones 
Recyde bin Timeouts 
:.- SFTP Servar respones timeout: 15 计 seconce 
- SCP/Shall 
(Cornedion Keepalves 
Proxy ® Of 
a 3) Sending of null SSH packets 
Key exchange 站 Exscutng Summy protocol commsnds 
- Authentication =- Rs, 20 
… Bugs 和 i 
Preferencee Intamet protacol yersion 
®) Mio -lpvd 习 1pv6 


局 Advanced options 


图 12 


理论 上 所 有 FTP 客 户 端 都 应 该 文 持 这 两 种 模式 ， 但 Windows 目 市 的 


ftp 命 令 似 于 和文 计 主动 模式 。 图 13 是 我 试图 采用 被 动 模 式 的 命令 


tp> quote pasv 

27 Entering Passive Mode 《10.32.1066.,.112.218.184> 

tp> ls linpeiman.txt 

@8 PORT command successful. 

58 Opening hSCII modue data connection for ’file list’. 
linpeinan .txt 

26 Transfer complete. 

tp: 15 butes received in 8.DB9Secondqds 15009 .00Kbytes/sec. 


tp> bye 
21 Goodbye. 


图 13 


从 图 13 中 看 ， 当 我 输入 “quote pasv”* 命 令 上 时， 的确 显示 进入 被 动 模 
式 (Entering Passive Mode) 。 接 下 来 我 们 看 看 图 14 的 网 络 包 。12 号 和 
13 号 包 也 的 确 显示 进入 被 动 模式 ， 但 是 再 接 下 来 的 网 络 包 却 完 全 是 主 
动 模式 的 样子 。 


No, Source Destination Time 
| 1210.32.106.103 10.32.106.112 2014-06-16 15:51;43 FTP Request: pasV 

13 10. 32.106.112 10.32.106.103 2014-06-16 15:51:43 FTP Response: 227 Ertering passive mode (10,32,106,112,218,184) 
| 14 10.32.106.103 10. 32.106.112 2014-06-16 15:51:43  TCP elatelink > ftp [ACK] Seq-36 ACck~179 Win~2742 Len-0 TSval~l1 
| 15 10. 32.106.103 10. 32.106.112 2014-06-16 15:51:48 FTP Request: PORT 10,32,106,103,8,B82 

16 10. 32.106.112 10.32.106.103 2014-06-16 15:51:48 FTP Response: 200 PORT conmand successfu]l. 

17 10. 32.106.103 10.32.106.112 2014-06-16 15:51:48 ”FTP Request: NLST 1 man. txt 

18 10. 32.106.112 10.32.106.103 2014-06-16 15:51:48 TCPp ftp-data > xds [SYN] Seq-0 Win-65535 Len-D MSS~1460 SACK_PE 


| 20 10.32.106.112 10.32.106.103 2014-06-16 15:51:48 TCPp ftp-data > xds [ACK] Seq-1l ACK~l1 Win~65535 Len-0 TSval~2120 
| 21 10.32.106.112 10. 32.106.103 2014-06-16 15:51:48 FTP Response: 150 Opening ASCII mode data connection for ‘file 
- 22 10. 32.106.112 10. 32.106.103 2014-06-16 15:51:48FTP-DATAFTP Data: 15 byces 


”8 bytes ire 《624 EE 78 byte: 本 区 24 bits) 
下 ernee ee Src: enc 人 10:58 (00:60:48:27:10 了 €_al:8:41 (00:50;56:al:58:41) 
田 EEA Src: 10- 32- 106. 112 Ca 32 106. e112 Ds 二 : 和 生 二 103 2 32.106.103) 


图 14 


从 结果 看 ，12 号 和 13 号 包 完 全 没有 起 作用 。 这 很 可 能 是 Windows 
的 一 个 bug， 我 在 Windows 7 和 Windows 2003 都 看 到 了 相同 的 结果 。 那 
微软 的 测试 部 门 为 什么 没有 发 现 呢 ? 如 采 没 有 用 Wireshark 来 抓 包 检 
查 ， 测 试 人 员 是 很 难 测 出 这 个 问题 的 ， 我 也 是 在 写 这 篇 文章 的 时 候 碰 
巧 看 到 。 从 这 个 不 经 意 的 发 现 ， 就 可 以 知道 Wireshark 的 价值 。 


上 网 的 学 问 一 一 HTTP 


2012 年 7 月 27 日 ， 伦 敦 奥 运 会 开幕 式 上 ， 一 位 长 者 带 着 上 世纪 才能 
见 到 的 老式 电脑 出 现 了 。 他 发 布 了 一 条 推 牺 一 “This is for everyone”， 
随即 显示 在 体育 馆 的 大 屏幕 上 ， 传 遍 世 界 〈 见 图 1) 。 


由 
Tim Berners-Lee a 


This is for everyone #london2012 #0oneweb 
openingceremony @webfoundation @w3e 
Reply 全 3 Retwael 宣 Favoiite 


10,113 1,739 到 国 区 录 一 剖 国 恒 口 


图 1 


他 就 是 57 岁 的 Tim Berners-Lee 医 士 一 一 万 维 网 的 发 起 者 ， 也 是 第 
一 位 实现 HTTP 的 工程 师 。 英 国人 不 但 借 此 传播 了 开放 和 分 享 的 互联 网 
精神 ， 也 展示 了 其 在 IT 历史 上 的 地 位 一 从 黄 定 现代 计算 机 基础 鸭 Alan 
Turing ， 到 发 明 分 组 交换 的 Donald Davies ， 再 到 万 维 网 之 父 Tim 
Berners-Lee， 每 一 个 重大 环节 都 有 英国 人 的 参与 。 假 如 北京 奥运 会 
也 要 推出 我 们 的 开 界 代表 人 物 ， 我 想 大 家 心中 已 有 合适 的 人 选 ， 他 也 
可 以 在 台 上 尝试 发 一 条 推 敌 。 

Tim 所 实现 的 HTTP 便 是 我 们 今天 浏览 网 页 所 用 的 网 络 协议 。 他 当 
年 建立 的 网 站 至 今 还 能 访问 ， 域 名 为 http:Winfo.cern.ch/。 虽 然 这 个 页 面 
已 经 更 新 过 ， 但 我 们 还 可 以 在 http:/www.w3.org/History/19921103- 
hypertext/hypertext/WWW/News/9201.html 看 到 当年 的 内 容 。 

HTTP 的 工作 方式 算 不 上 复杂 ， 先 由 客户 问 癌 服务 右 发 起 一 个 请 
求 ， 再 由 服 务 器 回复 一 个 啊 应 。 根 据 不 同 需要 ， 客 户 端 发 送 的 请 求 会 
用 到 不 同方 法 ， 有 GET、POST、PUT 和 HEAD 等 。 比 如 在 网 站 上 登录 
账号 时 残 可 能 用 到 POST 方法 。 


我 在 打开 网 页 http://www.rfc-editor.org/info/rfc2616 时 抓 了 包 ， 我 们 
就 以 此 为 例 ， 来 看 看 HTTP 是 如 何 工作 的 《〈 见 图 2) 。 


No, ”Source Destination Time Protocol Info 
1 192.168.1.103 64.170.98.47 2013-09-21 16:08:40 Tcp 54685 > hrrp [5YN] seq=0 win=8192 Len=0 Mm 


28 bits)，56 byres captured (528 bits) 
田 ee I1I, Src: LiteonTe_cf:88: 30 (do:df:9a:cf:s 二 Dst: ee =LinkT 713:1C;4C〈5C:63:bf:71I:1C34C) 
日 Internet prataco1 Version 4，Src: 192.168.1.103 (192.168.1.103)，Dst: 64.170.98.47 (64.170.98.47) 


田 


图 2 


1. 由 于 HTTP 协 议 基于 TCP， 所 以 上 来 就 是 三 次 握手 。 从 图 2 的 底 
部 可 以 看 到 ， 服 务 器 的 端口 号 为 80。 

2. 在 图 3 中 ，4 号 包 是 客户 端 回 服务 右 发 送 的 “GET /info/rfc2616 
HTTP1.1? 请 求 ， 即 通过 1.1 版 的 HITP 协 议 ， 获 取 /info 目 录 里 的 rfc2616 
文件 。 说 白 了 就 是 想 下 载 页 面 内 容 。 

Fun 下] ape ce err 


No. Source Destination Time Protocol Info 
4 192,168.1.103 64.170.98.47 16:08:40.324093 HTTP GET /info/rfc2616 HTTP/1.1 


7 64.170. 98.47 192.168.1.103 16:08:40- 556323 HTTP HTTP/1.1 200 ok (text/htm) 
4 91882.103 16:08:40. 90s wre Mo/3rY S00 ox Cone ese) 
图 3 

3. 7 号 包 是 服务 器 对 该 请 求 的 响应， 即 把 /info/rfc2616 的 内 容 发 给 
客户 端 。 

4. 9 号 包 是 客户 端 癌 服务 器 请 求 <GET /style/rfc-editor.css”。 该 css 
文件 定义 了 页 面 的 格式 。 

5. 11 号 包 是 服务 器 对 该 请 求 的 啊 应 ， 把 /style/rfc-editorcss 的 内 容 
发 给 客户 端 。 

就 这 样 ， 客 户 端 通过 两 个 GET 方 法 得 到 了 页 面 内 容 和 格式 ， 从 而 
打开 了 网 页 。 如 果 点 开 每 一 个 HITP 包 前 的 + 号 ， 还 能 看 到 其 协议 头 和 
详细 信息 。 以 4 号 包 为 例 ， 它 的 HITP 协 议 头 在 Wireshark 中 如 图 4 所 
示 。 其 包含 的 信息 大 概 可 以 归纳 为 : 我 要 通过 1.1 版 的 HTTP 协议， 从 
服务 器 www.rfc-editor.org 的 /info 目 录 里 得 到 rfc2616 的 内 容 。 


3 GET finfo/rfc2616 HTTP/ZIL-INArNn 
由 [Expert Info (Chat/Seauence): GET /info/rfc2616 HTTP/A1.1\r\n] 
Request Method: GET 
Request URI: /info/rfc2616 
Request Version; HTTP/1.1 
Accept; text/htm]l, application/xhtml+xm]l, */™\r\n 
Accept-Language: zh-CN\r\n 
Us t: Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; wow64:; Trident/6.0)\r\n 
Accept-Encoding: gzip, deflate\r\n 
Host: www.rfc-editor,org\r\n 
DNT: 1\r\n 
Connection: Keep-Alive\r\n 


\F AND 
[Full request URI;: http:,//www.rfc-editor.org/info/rfc25616] 


图 4 


HTTP 算 不 上 一 个 复杂 的 协议 ， 出 问题 的 时 候 也 能 在 浏览 器 上 看 到 
错误 信息 ， 所 以 我 们 用 到 Wireshark 的 机 会 并 不 多 。 不 过 随 着 技术 的 进 
步 ，HTTP 越 来 越 多 地 应 用 到 不 需要 浏 贤 絮 的 场景 中 ， 比 如 现在 如 火 如 
茶 的 云 存 储 技术 就 有 Wireshark 的 用 武之 地 。 

由 于 海量 文件 不 适合 传统 的 目录 结构 ， 所 以 云 存储 一 般 使 用 对 象 
存储 的 方式 一 客户 端 访问 文件 时 并 不 使 用 其 路 径 和 文件 名 ， 而 是 使 用 
它 的 对 象 ID。 身 份 验证 也 是 通过 HTTP 协 议 实 现 的 。 工 程 师 们 人 处理 此 
类 问题 时 天 能 用 上 Wireshark 了 “。 图 5 是 Wireshark 解 析 后 的 HITP 读 文件 
过 程 《只 要 在 Wireshark 上 右键 单 击 其 中 一 个 包 ， 在 弹出 的 菜单 中 选 
择 “Follow TCP Stream”* 就 可 以 打开 这 个 窗口 ) 。 我 们 可 以 从 中 看 到 该 
文 件 的 对 象 
ID“59J5T5KV78EP0e7AJIV55UO93DYG4140QGQQ000ED7PR8EJH3O 
GUV”， 还 有 身份 验证 时 用 到 的 用 户 名 “paddy” 和 加 密 后 的 密码 。 我 们 
甚至 可 以 看 到 服务 器 回复 的 文件 内 容 “I am Paddy Lin...” 在 这 个 过 程 中 
一 旦 发 生 问题 ， 比 如 身份 验证 出 错 了 ， 都 能 从 Wireshark 中 看 到 。 


= = 地 = = 3 器 
-— = = — 


车 
国 Foallow Tcp Stream 


| Stream Content 


/fmr oot /centera/ 9 5T5KV78EP0e7AJIV55UO93DVG4140DQcQQ000ED7PRBE]IH30GUY HTTP/1.1 
Connection Kee -Ali 


If ee Thu，04 Jun 2009 02:43:48 GMT 
Authorization: Digest usernasme="paddy”, realm="rffm", 
opPaque- 12803222 021244083423GGGH]JKWERTAAO765456UVTRREW" ，algorithm-"MD 
| nonce=” "5935T5KV7SEP De7A]JIV55UD93DVG4140QGQQ0O0ED7| pn iocu dsp 280322203" » Urfte"/fmroort/ 
A ra/59I5T5KV7 SEPDe7AIIV55UO93 DVG41400G0000DED7PR8EJH3OGUVY 
esponse=" bal4dlibacd597a900c584c3540828848" 
| posts shifad. shanghai.prv: 
User-Agent: EMC > FileMover 
Content-Lengch: 


HTTP/1.1 206 Partial Content 

CoNtent - Length: 32 

2 Type: Text/ piainy Pe 8 
ontent-Range; byte 132088 

ee Keep-Al 

Keep-Alive: i $6, max=10000 

Last-Modified: a En 3 19:43:45 2009 GMT 

Accept-Ranges: 

server:Lima callbac pe Server 

Date:wed JuU1 28 06:03;:23 2010 


I Paddy Lin, I an Paddy Lin. I am Paddy Lin. I am paddy Lin, I am Paddy Lin,. I am Paddy 
| 答 二 I am Paddy Lin, I an Paddy Lin, I am Paddy Lin. t an paddy Lin. 
I am Paddy Lin. I dcdy Lin. I am Paddy Lin. 1 am Eady Lin. I am Paddy Lin. I am Paddy 


Lin. 1 am Paddy Lin. I am Paddy Lin. I am Paddy Lin. 1 am Paddy Lin. pd 


[Eind| [Save as||print| Entire conversation (66856 bytes) - [=| ASCY EBCDIC ® Hex Dump C Arrays ® Raw 


Help Fikter Out This Smeam | Close 


图 5 


上 面 两 个 例子 都 用 到 了 了 GET 方法， 因为 它 是 最 常用 的 。 事 实 上 
HTTP 协 议 最 早 的 版 本 就 只 支持 GET，Tim 开 发 的 第 一 个 网 页 也 是 如 

这 在 今天 的 开发 者 看 来 简直 是 小 羔 一 碟 ， 甚 至 给 人 一 种 “时 无 瑞 
雄 ” 的 错觉 。 但 如 果 放 有 眼 整个 I 历史 ， 现 在 看 起 来 很 了 不 起 的 拉 术 都 是 
从 简单 发 展 而 来 的 。 以 云 存储 为 例 ， 确 层 用 到 的 技术 并 不 新 颖 ， 但 组 
合 起 来 的 云 概念 歼 是 科技 前 沿 了 。 

用 Wireshark 来 解决 HTTP 问题 是 很 痛快 ， 因 为 整个 通信 过 程 一 览 
无 遗 。 但 仔细 一 想 却 叫 人 直 冒 冷汗 一 如 果 连 传输 的 文件 内 容 都 可 以 清 
楚 地 看 到 ， 那 我 上 网 时 的 聊天 记录 ， 其 至 密码 是 否 也 会 被 发 现 ? 很 不 
季 ， 答 案 是 肯定 的 。 如 果 没 有 使 用 加 密 软 件 ， 那 么 黑客 (或 者 你 的 领 
导 ) 就 可 以 从 网 络 包 中 看 到 你 上 班 时 聊 了 些 人 什么， 在 哪些 帖子 上 祝福 
楼 主 一 生平 安 ， 搜 索 了 什么 关键 词 ， 甚 至 知道 你 登录 论坛 的 用 户 名 和 
密码 。 

图 6 是 我 在 Google 上 搜索 时 抓 的 包 。 从 4 号 包 可 以 看 到 我 用 到 的 天 
键 词 “Max is the best boss in the world” (Max 是 我 老板 的 名 字 ， 希 望 他 
此 时 正在 监控 我 的 网 络 ) 。 如 果 IT 部 门 把 这 类 包 收 集 起 来 ， 就 能 统计 


出 员工 们 上 班 时 都 在 搜索 什么 ， 再 通过 了 地 址 还 能 查 到 每 一 项 是 谁 搜 
的 。 


Neo, Source Destinabon Time Protocol ]nfo 
3 4 9 9 p 5 


3 10. 32, 200 688 Len=0 
#4 10.32,200.4 4 4.125。 13t. % 12; 09; 01 chon ewri 证 和 veBsite-&s0urce-hped-%2 hanris rt est+boss+in+the 


图 6 


至 于 更 敏感 的 用 户 名 和 密码 ， 这 里 也 有 个 血淋淋 的 例子 。 我 在 登 
录 www.mshua.net 这 古 我 经 常 登录 有 团 乙 论坛 ) 时 抓 了 包 。 当 客户 端 
用 POST 方法 把 用 户 名 和 窗 码 传 给 服务 器 时 ， 已 经 在 网 络 上 又 露 了 刁 
份 。 请 看 图 7 底部 的 用 户 名 “username=wiresharktest” 和 密 
码 “password=P@ssw0rd”， 可 以 想见 这 个 明文 账号 和 密码 随时 可 能 落 
入 坏人 手中 。 事 实 也 是 如 此 ， 上 个 月 我 登录 时 ， 束 发 现 几 位 平时 一 本 
正经 的 网 友 在 发 成 人 图 片 ， 显 然 他 们 的 密码 已 经 被 次 了。 为 了 防止 好 
奇 的 读者 用 这 个 账号 浏览 不 健康 信息 ， 我 已 经 把 密码 改 摊 了 。 


2 10.32.200.43 115.236.16.28 2013-09-22 12:13:46.040170 HTTP PosT A 


HFrame 2: 14g bytes on wire (1184 bits), 148 bytes captured (1184 bits) 
9 Ethernet EE Src: pe _68:80:28 (S0326:00508: 0:28 Di Do SEE e3:a6:80 aS sd) 
RE Cc: 10,32 32.200.43), DST: 236.16.28) 


oD \ 站 » 
了 Transmis Ta Cr Src Port: 50023 EE DST Port: http [nD “Seq: 1215, Ack: 1, Len: 94 
9 [2 Reassenbled TCP eg ents (1308 bytes): #1(1214), #2(94)] 


fastloginfield=userr rnamegus ername=wiresharktest&password=PQSswOrd&quickforwar d=yesé&handlekey=1s 


图 7 


那 要 如 何 保护 自己 的 信息 呢 ? HTTPS 就 是 一 个 不 错 的 选择 。 比 如 
用 Google 搜 索 时 在 http 后 加 个 s， 变 成 https:Wwww.google.com.hk/， 允 不 
用 担心 老板 知道 你 在 搜 些 什么 了 。 图 8 就 是 使 用 HTTPS 搜 索 时 抓 的 
包 ， 注 意 服 务 器 端口 是 443 ， 关 键 词 也 被 加 密 到 了 “Encrypted 
Application Data” 里 。 


Be Eqpression.., Clear Apply 


No, Source Destination Time Protocol Info 
118 10. 32.200.28 74.125.228.23 2014-07-07 07:06:I0 TLSVI Application Data, Application Data 
119 74. Las a 23 10. 2 2014-07-07 07:06:10 Tcp https > 57227 [ACK] Seq=9469 Ack=1594 
20 19. 200, 74.12 28.23 2014-07-07 07:06:10 TCcPF 57226 > https [ACK] Seq-1354 Ack-9522 
121 74. 125. 228. 23 10. 32. 200. 28 2014-07-07 07:06:10 TL5v1 Application Data, Application Data，Ap 
*| mm 


由 Frame 118: 1104 bytes on wire (B832 bits), 1104 bytes captured (8&832 bits) 
Ethernet II, Src: Dell_68:80:28 (5c:26:0a:68:80:28), Dst: cisco_e3:a6:80 (ec:30:91:e3:a6:80) 
TInternet Protocol, Src: 10-32.200.28 (10.32.200.28), Dst: 74,125.228.23 (74.125.228.23) 
加 Transmission Control Protocol, src Port: 57227 (57227), Dst Port: https (443), Seq: 544, Ack: 94' 
口 5ecure Socket Layer 
日 TLSvI Record Layer: Application Data Prorocol: hrtrp 

Content Type: Application Data (23) 

version: TLS 1.0 (Dx0301) 

Length: 32 

Encrypted Application Data: ad3299f34bb9cf22533Bd69f105b8b737b3908cf1ib83b8ac,... 


图 8 


大 多 数 人 并 不 需要 理解 HTTPS 的 加 密 算法 ， 所 以 本 文 将 不 在 此 多 
费 笔 时 (其 实 是 因为 我 自己 也 不 懂 ) 。 但 因为 加 密 包 会 给 诊断 问题 带 
来 不 少 障碍 ， 所 以 管理 员 有 必要 知道 如 何 对 它 进行 解 码 。 图 9 是 4 个 
HTTPS 包 ， 我 们 除了 能 看 到 “Application Data Protocol”" 是 HTTP 之 外， 
吉平 对 它们 一 无 所 知 ， 因 为 所 有 信息 都 被 加 密 了 。 


Destmztion Time Protocol jnfo 


"8 a 127.0.0.1 2006-04-24 17:04:18.835766 SSLY3 Change Cipher Spec, Encrypted Handshake Message, Application Data 
30 127.0.0,1 127.0.0.1 2006-04-24 17:04:18.836412 SSsLV3 Application pata, Aapplication Datra 

31 127.0.0.1 127.0.0.1 2006-04-24 17:04:18.836751 SSLV3 Application Data 

32 127-0-0.1 127.0.0.1 


-1 2006-04-24 17:04:18.837090 ssLv3 Application Data, Application Data 
Li 


EE Frame 29: 562 bytes on wire rE a 562 bytes a pt ey 
E Ethernet II, Src: 00:00:00_00 0 (00:00:00:00:00:00), 00:00_00:00:00 (00:00:00:00:00:00) 
E Tnterner Protnral, sre: 177. 0 汪 1 二 -0.N.1), Nsr: 127- 0 和 1 二 010.0.1) 
B® Transmission control Proroco1，5rc Port: 38714 (38714), Dst Port: https (443), Seq: 121, ACKk: 155, Len: 496 
口 Secure socket Layer 
EE SSLV3 Record Layer : Change Cipher spec Protocol: change Cipher spec 
SSLv3 Record Layer: Handshake Protocol: Encrypted Handshake Message 
55LV3 Record Layer: Application Data Protocol: http 
content Type: Application Daca (23) 
version: 5SL 3.0 (0x0300) 
Length: 4165 
Encrypted Application 


要 对 这 些 加 密 包 进行 解码 ， 只 需要 以 下 几 个 步骤 (本 例 所 用 的 网 
络 包 和 密 钥 来 目 http:/wiki.wireshark.org/SSL 上 的 snakeoil2_070531.tgz 
文件 ， 建 议 你 也 下 载 来 试 试 ) 。 

1， 解压 snakeoil2 070531.tgz 并 记 住 key 文 件 的 位 置 ， 比 如 
C:\tmp\rsasnakeoil 2.key ° 

2. 用 Wireshark 打 开 rsasnakeoil2.cap。 

3 ， 单 击 Wireshark 的 Edit-->Preferences-->Protocols-->SSL-->RSA 
keys list。 然 后 按照 IP Address,Port,Protocol,Private Key 的 格式 填 好 ， 如 
10 所 示 。 


[Secure Socket Layer— 
Reassemble SSL records spanning multiple TCP segments 加 


Reassemble SSL Application Data spanning multiple SSL records: ” 回 


RSA keys list: | 127.0.0.1,443.http,C:\tmp\rsasnakeoilz. keyl 


图 10 


4. 单 击 OK， 这 些 包 就 成 功 解码 了 。 图 11 就 是 这 4 个 包 解 码 后 的 样 
子 ， 两 个 GET 方 法 都 可 以 看 到 。 


No. OUICE Destination Time Protocol 
29 127.0.0.1 127.0.0.1 2006-04-24 17:04 :18- 835766 HTTP 


Jnfo 
GET /icons/debian/open1ogo-25- jpg HTTP/1.1 


Hn Frame 29: 562 bytes on wire (4496 bits), 562 bytes captured (4496 bits) 

由 EThernet IT, Src: 00:00:00_00:00:00 (00:00:00:00:00:00), DstT:; 00:00:00_00;00:00 (00:00:00:00:00:00) 

回 Internet protocol, Src: 127.0.0.1 (127.0.0.1), Dst: 127.0.0.1 (127.0.0.1) 

Transmission Control Protocol, Src Port: 38714 (38714), Dst Port: https (443), Seq: 121, Ack: 155, Len: 496 
Secure Socket Layer 

+ Hypertext Transfer Proroco 


图 11 


既然 HTTPS 包 能 被 解码 ， 是 不 是 说 明 它 也 不 安全 呢 ? 事 实 并 非 如 
此 ， 因 为 解码 所 用 到 的 密 钥 只 能 在 服务 器 端 导出 。 不 同 的 服务 右 操 作 
步 台 有 所 不 同 ， 比 如 1S 服务器 就 可 以 参考 这 一 篇 文章 : 
http://www.packetech.com/showthread.php?1585-Use-Wireshark-to- 
Decrypt-HTTPS° 

你 的 老板 有 可 能 潜入 Google 守 出 密 钥 吗 ? 我 相信 我 老板 做 不 到 。 


无 懈 可 击 的 Kerberos 


在 古 布 腊 神 话 中 ， 竖 界 的 大 门 由 一 头 烈 犬 看 守 。 此 犬 长 有 三 个 
涉 ， 殊 萄 业 业 地 守 在 太 河 边 ， 从 没有 灵魂 能 在 它 桓 着 的 时 候 逃 离 。 这 
头 烈 厂 束 是 Kerberos ， 安 全 守卫 的 象征 。 古 布 腊 人 下 芋 时 要 放 好 蜜 
饼 ， 束 是 为 了 讨好 它 。 现 代 游 戏 里 也 有 它 的 英姿 ， 比 如 《英雄 无 敌 》 
里 以 一 敌 多 的 地 狱 烈 大 。 

本 文 要 介绍 的 身份 认证 协议 也 叫 Kerberos， 它 有 着 非常 广泛 的 应 
用 ， 比 如 Windows 域 环境 的 映 份 认证 殊 会 用 到 它 。 我 们 用 域 账号 登 5 


电脑 ， 束 在 不 知 不 党 间 完成 了 一 次 Kerberos 认 证 过 程 。 

Kerberos 的 认证 结果 是 双 癌 的 一 当 账 号 A 访问 资源 B 时 ， 不 但 B 要 
确保 A 并 非 冒 充 ， 而 且 A 也 要 碍 明 B 不 是 假 货 。 我 们 一 般 只 知道 前 者 ， 
比如 前 文 提 到 的 CIFS 服 务 器 就 要 在 Session Setup 中 对 造访 者 验 明 正 
号 。 后 者 则 很 少 被 提 及 ， 因 为 人 们 一 般 不 会 怀疑 自己 要 访问 的 资源 是 
假 的 。 其 实 后 者 还 是 很 有 必要 的 ， 举 一 个 例子 : 如 果 你 老板 伪造 了 一 
台 网 络 打 印 机 ， 但 是 你 没 法 确认 它 的 真 假 ， 残 可 能 把 求职 信 打 到 他 办 
公 室 里 去 ， 然 后 惑 真 的 得 出 去 求职 了 。 西 游记 中 其 实 也 出 现 需要 相互 
认证 的 场景 ， 比 如 如 来 佛祖 要 认 出 假冒 的 访问 者 六 和 耳 狗 猴 ， 唐 僧 师 徒 
也 要 识别 山寨 的 “资源 ”小 雷 首 寺 。 

双 回 认证 的 方式 不 止 一 种 ， 最 简单 的 做 法 是 互 报 密码 。 这 个 过 程 
束 像 电影 中 用 暗号 接头 。A 说 :“ 江 南 风 光 好 ”，B 说 :“ 汤 地 红 花 开 ”。 
如 果 双 方 都 核对 无 误 ， 就 可 以 激动 地 握手 “同志 ， 我 可 找到 你 了 ! ” 假 
如 其 中 一 方 报错 瞳 叶 ， 则 接头 失败 。 这 种 方式 的 静 端 很 多 ， 最 大 的 问 
题 是 不 方便 管理 。 比 如 在 一 个 数 百 名 员工 共享 几 百 台 机 需 的 环境 中 ， 
当 新 加 入 一 名 员工 时 ， 就 得 在 几 百 台 机 妖 上 更 新 账号 信息 。 相 信 没 有 
管理 员 能 忍受 这 样 的 环境 。 

有 没有 办 法 做 得 更 好 呢 ? Kerberos 采 用 的 方法 是 引入 一 个 权威 的 
第 三 方 来 负 责 吴 份 认证 。 这 个 第 三 方 称 为 KDC， 它 知道 域 里 所 有 账号 
和 资源 的 密码 。 假 如 账号 A 要 访问 资源 B， 只 要 把 KDC 拉 出 来 证 明 双 方 
身份 就 行 了 。 在 这 种 机 制 下 ，A 和 B 都 没 必 要 知道 对 方 的 密码 ， 完 全 
依赖 KDC 吕 可 以 。 

原理 说 起 来 简单 ， 通 过 程序 实行 起 来 可 残 难 了 。 事 实 上 由 于 
Kerberos 过 于 复杂 ， 从 来 没有 一 位 技术 作家 能 把 它 简单 地 表述 出 来 。 
最 文艺 的 Kerberos 诠 释 当 属 麻 省 理工 学 院 编 的 一 出 话剧 ， 搜 索 一 
下 “Kerberos 四 幕 话剧 ” 束 能 找到 它 ， 但 其 实 理解 这 话剧 还 是 不 容易 。 
邓 好 有 了 Wireshark 之 后 ， 可 以 使 Kerberos 的 认证 过 程 变 得 清晰 很 多 。 


在 下 面 的 实验 中 ， 账 号 A 是 我 的 域 账号 linp1， 资 源 B 是 一 台 叫 CAVA 的 
Windows 服 务 器 。 账 号 A 访问 资源 B 其 实 就 是 linp1 登 录 CAVA 的 过 程 。 
第 一 步 ， 账 号 A 和 和 KDC 互相 认证 。 

这 可 以 看 成 一 道 有 趣 的 小 学 奥数 题 ， 已 知 世 界 上 只 有 A 和 KDC 知 
道 A 的 密码 ， 如 何 利 用 该 密码 互相 证 明 自 己 的 身份 ? 你 也 许 会 想到 和 孔 
明和 周瑜 在 手心 对 字 ， 直 接 疝 对 方 亮 出 A 的 密码 。 但 在 网 络 环境 中 不 
能 这 样 做 ， 因 为 如 果 其 中 一 方 是 假 的 ， 不 就 被 套 到 真 密码 了 吗 ? 既 要 
做 到 不 说 出 密码 ， 又 要 让 对 方 知道 自己 拥有 密码 ， 应 该 怎样 实现 ? 
Kerberos 自 有 一 仁 严 密 的 办 法 。 

1. 账号 A 利用 hash 范 数 把 密码 转化 成 一 把 密 钥 ， 我 们 称 它 为 
Kclt° 

2. 用 Keclt 把 当前 时 间 戳 加密， 生成 一 个 字符 串 。 我 们 用 “{ 时 间 
鹤 } Kalt* 来 表示 它 。 

3. 把 上 一 步 生成 的 字符 串 “{ 时 间 戳 } Kclt*、 账 号 A 的 信息 ， 以 及 
一 段 随机 字符 串 发 给 KDC。 这 样 束 组 成 了 Kerberos 的 身份 认证 请 求 
AS_REQ。 我 们 用 下 面 这 个 公式 来 表示 这 个 请 求 。AS_REQ =“{ 时 间 
稚 } Kclt”, “账号 A 的 信息 >, “随机 字符 串 ” 

如 图 1 所 示 ， 我 实验 室 中 的 账户 名 字 为 jinp1， 本 次 生成 的 随机 字 
符 串 是 136224786。 


No. Source Destination Time Protocol|l Irfo 
19 10.32.106.116 10.32,106.103 15:;14:04.481503 KRB3 AS-REQ 
20 10. 32.106.103 10. 32,106.1156 15:;14:04.487202 KRB5 AS-REP 
4 | 
-3 Kerberos AS-REQ 
Pvno: 5 
MSG Type: A5-REQ (10) 
日 padata: PA-ENC-TIMESTAMP PA-PAC-REQUEST 
日 Type: PA-ENC-TIMESTAMP (2) 
BE value: 303da003020117a23604345cbzaa3f173c837bI51acc5bl9. , 。 rc4-hmac 


Encryption type: rc4-hmac (23) 
日 enc PA_ENC_TIMESTAMP: Scb2aa3f173c837bl5laccS5bl98fdc8bc479bc8beea3226f 
[Decrypted using: keytab principal none@none] 
patimestamp; [2012-03-14 07:14:04 (UTC)| 时 加 可 
pausec: 9533347 
田 Type: PA-PAC-REQUEST (128) 
日 KDC_REQ_BODY 
Padding: 0 
田 KDCOoptions; 40810010 (Forwardable, Renewable, Canonicalize, Renewable Ox) 
Client Name (Principal): finpi 账号 信息 
Realm: NAS 
田 SerVver Name (Service and Instance]: Kkrbtgt/NAS 
til11:; 2037-09-13 02:48:05 (UTC) 
rtime: 2037-09-13 02:48:05 (UTC) 
Nonce: 135224786|] 随机 字符 中 


图 1 


4. KDC 收 到 AS_REQ 之 后 ， 先 读 到 账号 A 的 信息 inp1”"， 于 是 便 
调 出 A 的 密码 ， 再 用 同样 的 hash 汞 数 转 化 为 Kdt。 有 了 Kadlt 就 可 以 解 
开 “{ 时 间 戳 } Kdt* 了 ， 如 果 能 解 开 则 说 明 该 请 求 是 由 账号 A 生成 的 ， 
因为 其 他 账号 不 可 能 有 Kclt 可 以 加 密 。 

Kerberos 为 什么 要 选用 时 间 惟 来 加 密 ， 而 不 是 其 他 呢 ? 原因 就 是 
墨客 可 能 在 网 络 上 截获 字符 串 “{ 时 间 戳 } Kdt*"， 然 后 伪装 成 账户 A 来 
骗 认 证 。 这 种 方式 称 为 重 放 攻 击 。 重 放 攻 击 的 伪装 过 程 需要 一 段 时 
间 ， 所 以 KDC 把 解密 得 到 的 时 间 惟 和 当前 时 间作 对 比 ， 如 果 相 差 过 大 
就 可 以 判断 是 重 放 攻 击 了 。 假 如 采用 与 时 间 无 关 的 字符 来 加 密 ， 则 无 
法 避 开 重 放 攻 击 ， 这 就 是 我 们 必须 在 域 中 同步 所 有 机 器 时 间 的 原因 。 

5. 接 下 来 轮 到 KDC 癌 账号 A 证 明 自 己 的 身份 了 ， 上 文 提 到 的 随机 
字符 串 就 用 在 这 里 。 理 论 上 KDC 只 要 用 Kclt 加 密 随 机 字符 串 ， 再 回复 
给 账号 A 束 可 以 证 明 自 己 的 身份 了 。 因 为 假 的 KDC 是 没有 Kclt 的 ， 账 
户 A 拿 到 回复 之 后 解 不 出 那个 随机 字符 串 ， 就 知道 KDC 有 假 。 

总 结 以 上 过 程 ， 账 号 A 和 KDC 都 没有 同 对 方 发 送 密码 ， 所 以 即便 
一 方 是 假 的 也 不 会 泄露 信息 。 而 如 果 双 方 都 是 真 的 ， 则 实现 了 互相 认 


证 ， 可 以 算是 完美 了 。 不 过 这 个 机 制 下 的 KDC 会 非常 忙碌 ,假设 每 次 
认证 都 得 调 出 账号 密码 、hash、 解 密 ...... 而 且 每 个 客户 端 一 天 可 能 要 
验证 数 十 次 ， 那 域 中 就 得 配备 大 量 的 KDC 才 负担 得 起 。 有 没有 办 法 进 
一 步 改进 呢 ? Kerberos 为 此 设计 了 一 个 精巧 的 方法 。 

a. KDC 生 成 两 把 一 样 的 密 钥 Kalt-Kdc， 作 为 以 后 账户 A 和 KDC 之 
间 互 相 认 证 之 用 ， 这 样 就 省 去 了 调 出 账号 A 的 密码 和 hash 等 工作 。 按 
理 说 其 中 一 把 Kclt-Kdc 要 发 给 账户 A 保管 ， 男 一 把 由 KDC 目 己 你 管 。 
但 是 保管 密 钥 对 忙碌 的 KDC 来 说 也 是 一 个 负担 ， 所 以 它 决 定 委 托 给 账 
户 A 保 管 ， 以 后 账号 A 每 次 需要 KDC 的 时 候 ， 再 把 这 把 密 钥 还 回来 。 
这 个 办 法 听 上 去 不 太 靠 谱 ， 万 一 有 个 假冒 的 账户 A 交 回来 一 把 假 密 铀 
怎么 办 ? 为 了 避免 这 个 问题 KDC 把 自己 的 密码 hash 成 Kkdc， 然 后 用 
它 加 密 那 把 委托 给 A 的 密 铀 。Kerberos 里 把 这 个 委托 的 密 钥 称 为 TGT 

(Ticket Granting Ticket) ， 可 以 用 下 面 的 公式 来 表示 。 
TGT = {账户 A 相关 信息 ，Kdlt-kdc} Kkdc 


有 了 这 个 委托 保存 的 机 制 ，KDC 只 需 记 得 目 己 的 Kkdc， 就 能 解 开 
委托 给 所 有 账号 的 TGT， 从 而 获得 与 该 账号 之 间 的 密 钥 。 通 过 这 个 机 


制 ，KDC 的 工作 负担 就 大 大 降低 了 。 
总 结 下 来 ，KDC 回 复 给 账户 A 的 AS_REP 应 包含 以 下 信息 ( 见 图 
20 半 
AS_REP=TGT, {Kclt-kdc, 时 间 惟 ， 随 机 字符 串 }Kclt 


No. Source Destination Time ne i 


36 10. 3 10 103 10.32.106.116 15:14:04.487202 RRBS A REP 


‘| 


日 Kerberos AS-REP 
Pvno: 5 
MSG Type: AS-REP (11) 
Client Realm: NAS.COM 
四 Client Name (Principal): linpli 
田 芝 cke 这 就 是 TGT 
日 enc-part ee ac 
Encryption type: rc4-hmac (23) 
Kvno: 7 
日 enc-part: d77a787ecfadaf45cb7546f4fb0c375a6bfb0e77e3b37ea7.. . 
[Decrypted using: keytab principal none&none] 
加 EncKDCRepPart 
加 这 是 Kclt-kdc 


日 LastReqs : 


晶 LastReq 
Lr-type: 人 2 available 《0) 


Lr-time: 


[i 和 归 - 
图 2 


b. 账户 A 收 到 AS-REP 之 后 利用 Kclt 解 密 “{Kclt-kdc, 时 间 惟 ， 随 机 
字符 串 } Kclt”。 通 过 解 开 来 的 随机 字符 串 和 时 间 戳 来 确定 KDC 的 真实 
性 ， 然 后 把 Kclt-kdc 和 TGT 保 存 起 来 备用 。 

军 三 步 : 人 o 

1. 这 时 应 该 发 什么 给 KDC 呢 ?首先 TGT 是 肯定 要 交还 给 KDC 
的 ， 其 次 还 有 账户 A 的 相关 信息 、 当 前 时 间 惟 ， 以 及 要 访问 的 资源 B 的 
言 筷 〈 见 图 3) 。 这 个 请 求 在 Kerberos 中 称 为 TGS-REQ， 可 以 用 下 面 
的 公式 表示 。 

TGS_REQ = TGT， 人 {账户 A 相关 信息 ， 时 间 礁 }Kclt-kdc, “资源 B 
相关 信息 ” 


"| Expression... Clear Appl 


No, Source Destinabon hme Protocol Info 
21 10.32,.106.116 10.32.1065.103 15:14:04.488392 KRB5 TGS-REQ 
10.32,106,103 10.32.,106,116 15:14#4:04,489261 KRBS TGS-REP 


a Ti cket | 交还 给 KDC 的 TGT 
忆 Authenticator rc4-hmac 
Encryption type: rc4-hmac (23) 
E Authenticator data: 90108b914287749f662a99bdb176733af64a383a5 
[Decrypted Using: key learnt from frame 20] 
忆 Authenticator 
Authenticator vno: 5 
Client Realm: NAS.COM 
四 Client Name (principal): [inp] 账号 信息 
EE Checksum 


3 1 :3 
seq Number: 136224999 
BB KDC_REQ_60DY 
Padding: 0 
由 KDCOptions: 40810000 (Forwardable, Renewable, Canonicalize) 
Realm: NAS.COM 


田 Server Name (Service and Host): [hostvcava.nas.com] 资源 B 的 信息 
图 3 


2. KDC 收 到 TGS-REQ 之 后 ， 先 用 Kkdc 解 密 TGT 得 到 Kclt-kdc， 再 
用 Kclt-kdc 解 密 出 账号 A 的 相关 信息 和 时 间 惟 来 验证 其 身份 。 一 旦 认定 
账号 A 为 真 ， 束 要 想 办 法 帮助 A 和 B 互 相 认 证 了 。 

3. KDC 生 成 两 把 同样 的 密 钥 供 A 和 B 之 间 人 使用， 我们 就 称 这 个 密 
钥 为 Kclt-srv 吧 。 其 中 一 把 密 钥 直 接 交 给 账号 A， 男 一 把 委托 A 转交 给 
资源 B。 为 了 确保 A 不 会 受到 假 的 资源 B 所 编 ，Kerberos 把 B 的 密码 hash 
成 Ksrv， 然 后 用 它 加 密 那 把 委托 A 转交 给 B 的 Kdlt-srv， 成 为 一 张 只 有 
真正 的 B 能 解密 的 Ticket。 总 结 起 来 ，KDC 给 账号 A 的 回复 可 以 表示 如 
下 ( 见 图 4) 。 


Fs 


Ticket = {账号 A 的 信息 ，Kdlt-srv}Ksrv 
TGS REP = {Kclt-srv} Kclt-kdc, Ticket 
这 里 的 “账号 A 的 信息 ”可 不 仅仅 包括 名 字 ， 连 A 所 在 的 Domain 
Groups 都 包含 在 里 面 。 所 以 如 果 A 属 于 很 多 个 groups，TGS_REP 包 会 
非常 大 。 


No, Source Destinetion . Time Pr otcol 二 加 


22 10, 32.106,103 10.32,106.116 15:14:04.489261 KRB5 TG5- REP 


3 Kerberos TGS-REP 
Pvno: 5 
MSG Type: TGS-REP (13) 
Client Realm: NAS- COM 
轩 Client Name (Principal): linpi 
加 Ticket| 这 就 是 { 账 号 A 的 信息 ，Kclt-srvjKsrv 
日 enc-part rc4-hmac 
Encryption type: rc4-hmac (23) 
日 enc-part: Bef6746e95f0f6891fa6e2339b2cdcbdc3difbe2d75540b4...| 这 是 {Kclt-srv}Kclt-kdc 
[Decrypted using: key learnt from frame 20] 
= EncKDCRepPart 
3 Key rc4-hmac 
Key type: rc4-hmac (23) 
Key value: EH3b4b59c905646d253dab2al4a391945| 这 是 Kclt-srv 


图 4 


4. 账号 A 收 到 TGS_REP 之 后 ， 先 用 Kclt-kdc 解 开 {Kclt-srv}Kclt- 
， 从 而 得 到 Kclt-srv。Ticket 留 着 发 给 资源 B。 接 下 来 如 果 需 要 多 次 
都 可 以 使 用 同一 个 Ticket， 而 不 需要 每 次 都 回 KDC 申 请 ， 
> ee E 
第 三 步 ， 账 号 A 和 资源 B 互 相 认证 。 

1. 0 一 步 就 简单 了 "账号 A 给 贷 源 B 发 送 “{ 峰 号 A 的 信息 ， 时 间 
惟 } Kcltrsrv” 以 及 上 一 步 收 到 的 Ticket。 这 个 请 求 称 为 AP_REQ 。 

AP_REQ = “{ 账 号 A 的 信息 ， 时 间 惟 } Kalt-srv”，Ticket 

2， 如 采 资 源 B 是 假 的 ， 它 是 解 不 开 Ticket 的 。 如 有 果 资 源 B 是 真 的 ， 
它 可 以 用 目 己 的 密码 生成 Ksrv 来 解 开 Ticket， 从 而 得 到 Kcltrsrv。 有 了 
Kclt-srv 承 可 以 解 开 <*{ 账 号 A 的 信息 ， 时 间 戳 } Kcltrsrv” 部 分 。 这 样 资源 

B 束 可 以 确定 账号 A 为 真 ， 然 后 回复 AP_REP 来 证 明 目 己 也 是 真 的 。 
AP _REP = { 时 间 惟 }Kcltrsrv 

3. 账号 A 利 用 Kcltr-srv 来 解密 AP_REP， 再 通过 得 到 的 时 间 惟 来 判 
世 对 方 是 否 为 真 。 

第 三 步 是 抓 不 到 网 络 包 的 ， 因 为 这 个 实验 过 程 是 用 户 linp1 登 录 
Windows 服 务 右 CAVA， 第 三 步 没 有 发 生 在 网 络 上 “。 假 如 接 下 来 用 户 
linp1 访 问 CAVA 之 外 的 其 他 资源 ， 比 如 访问 网 络 共享 ， 我 们 融 能 在 
Session Setup 里 找到 AP_REQ 和 AP_REP 了。 如 图 5 所 示 ， 我 在 Session 


Setup AndX Request 包 中 点 开 Security Blob ， 了 驶 把 AP REQ 显 示 出 来 


了 。 


28 10.32.106.116 10. 32.106.103 15:14:07.322618 SMB Session Setup AndX Request 
30 10.32,106.103 10.32.106.116 15:14:07.323370 ip Session Setup AndX Response 


| 


日 Se55ion Setup AndxX Request 《0x73) 
word Count (CT]J: 12 
AncxCommand: No further commands (Oxff) 
Reserved: D0 
Ancdxoffset: 2676 
Max Buffer: 16644 
Max Mpx Count: 50 
VC Number: 1 
Session Key: 0x0000000D0 
Security Blob Length: 2472 
Reserved: 00000000 
Capabilities: Dxa00000d4 
Byte Count (BCC): 2617 
Security Blob: 608209a406062b0601050502a082099830820994a0243022... 
日 GSS-API Generic secuyrity Service Application program Interface 
OID: 1.3.6.1.5.5.2 (SPNEGO - Simple Protected Negotiation) 
日 Simple Prorected Negotiation 
日 negTokenInit 
mechTypes: 3 items 


团 


器 


mechToken: 60820962060923a864896f712010202010056eB2095130B209... 
日 krb5_blob: 6082096206092a864886f71201020201006e820951308209. . . 


KRB5 OID: 1.2.8340.113554.1.2.2 (KRB5 - Kerberos 5) 
krb5_tok_id: KRB5_AP_REQ 《DOx0001) 
田 Kerberos_ AP-REQ 


图 5 


如 果 这 是 你 第 一 次 认识 Kerberos， 我 估计 已 经 看 得 云 里 筋 里 了 。 
请 相信 这 是 人 类 的 正常 反应 ， 我 给 好 几 批 工程 师 培训 过 Kerberos， 几 
乎 没有 人 能 很 快 理 清 楚 的 。 图 6 是 整个 认证 过 程 的 流程 图 ， 也 许 对 理解 


会 有 所 帮助 。 


IAS REQ 


5AP REQ 


账号 A 6AP_REP 资源 B 


图 6 


当 你 完全 理解 Kerberos 之 后 ， 可 能 会 意识 到 一 个 问题 : 不 对 啊 ， 
那么 多 加 密 信息 都 被 Wireshark 显 示 出 来 了 ， 还 有 什么 安全 可 言 ? 其 
实 我 是 用 linp1 的 密码 生成 了 一 个 keytab 文 件 ， 再 用 它 来 解密 的 。 有 具体 
操作 如 下 。 

1. 参照 Wireshark 的 官方 说 明生 成 keytab 文 件 ， 步 又 请 参考 
http://wiki. wireshark.org/Kerberos ° 

2.， 把 这 个 文件 和 网 络 包 放 到 同一 个 目录 里 。 

3. 打开 Wireshark 的 Edit-->Preferences-->Protocols-->KRB5 麻 单 ， 
在 图 7 所 示 的 窗口 义 上 两 个 选项 ， 然 后 输入 keytab 文 件 的 名 字 。 


asswd 


LWAPP 


图 7 


4. 打开 网 络 包 ， 束 能 看 到 解密 后 的 内 容 了 。 

这 也 是 我 喜欢 Wireshark 的 原因 之 一 ， 即 使 像 Kerberos 这 么 复杂 的 
协议 ， 它 也 能 完全 解析 出 来 。 这 简直 是 域 管 理 员 的 福音 。 我 稍 作 回 
忆 ， 就 能 想到 很 多 处 理 过 的 Kerberos 相 关 例 子 。 
案例 1: 某 客户 可 以 用 只 <IP 地 址 >” 访 问 某 文件 服务 器 ， 但 用 了 “人 < 域名 
>” 则 不 能 访问 。 

用 了 Wireshark 抓 包 才 知道 ， 客 户 端 用 了 访问 时 用 了 NTLM 作 吴 份 
验证 ， 而 用 域名 访问 时 则 用 Kerberos。 由 于 两 种 验证 方法 机 制 不 同 ， 
所 以 结果 也 不 一 样 。 比 如 当 客 户 端 和 服务 器 的 时 间 没 有 同步 时 ， 
Kerberos 会 认为 该 访问 是 重 放 攻 击 而 拒绝 访问 ， 但 NTLM 不 会 。 
案例 2， 一 个 域 账号 明明 被 加 a 到 某 个 组 里 ， 该 组 也 被 赋予 访问 文件 夹 的 
权限 ， 但 是 该 账号 就 是 访问 不 了 这 个 文件 夹 。 

用 Wireshark 解 密 了 AP_REQ 之 后 ， 并 没有 看 到 那个 组 。 很 可 能 是 
用 户 登 录 (获得 包含 组 信息 的 ticket) 之 后 ， 才 被 加 到 那个 组 里 的 。 让 
该 用 户 注销 后 再 登录 ， 获 得 新 Ticket 就 好 了 。 
案例 3: 某 台 客户 端 加 入 域 失败 ， 查 了 很 久 都 没 找到 原因 。 


用 了 Wireshark 之 后 ， 在 包 里 发 现 
“KRB5KRB_ERR_RESPONSE_TOO_BIG” 的 错误 信息 ( 见 图 8) 。 利 
用 该 报错 很 快 就 从 微软 的 网 站 上 找到 了 解决 方案 。 


[ 国 ramp ep i ~ — i 
| Ble Edt Vew Go Capture Analyee Statisics Telephony Iools WSintemal Help 
Ca 六 和 证 曙 于 生 有 GD 人 1 古国 昂 基 | 二 


| Fier kerberos ||ldap | -| Epeession Clear Apply 


No, Source Destination Time Protocol ]nfo 
| 531 10.5.1.54 10.5.1.2 71,.757812 LDAP bindRequest (1) “<ROOT>” simple 
532 10.5.1.2 10.5.1.54 71.757812 LDAP 5 


533 10.5.1.54 
534 10.5.1.2 


TCP/IP 的 故事 


我 们 生活 在 这 样 一 个 时 代 : 只 要 连 上 网 络 ， 就 可 以 和 朋友 交流 ， 
无 论 距离 远近 ; 也 可 以 网 购 商 品 ， 发 执 制 手 都 无 济 于 事 ;， 还 可 以 点 评 
正在 发 生 的 大 小 事件 ， 像 旦 上 批阅 奏章 一 样 日 理 万 机 。 用 我 们 这 一 行 
的 表达 方式 ， 可 以 说 现代 人 的 生活 是 基于 网 络 的 。 

网 络 的 流行 很 大 程度 上 要 归功 于 Vinton Cerf 和 Robert Kahn 这 对 老 
搭档 ( 见 图 1) 。 他 们 在 20 世 纪 70 年 代 设 计 的 TCP/AP 协 议 黄 定 了 现代 网 
络 的 基石 ， 也 因此 获得 过 计算 机 界 的 最 高 采 誉 一 网 灵 奖 。 


Vinton 和 Robert 一 起 获得 总 统 自由 勋章 


图 1 


说 起 来 TCP/IP 还 不 是 这 两 位 互联 网 之 父 的 第 一 次 合作 。 在 此 之 
前 ， 他 们 一 起 参与 了 阿 帕 网 的 开发 。 阿 帕 网 称 得 上 现代 网 络 的 前 身 ， 
当时 谁 也 没有 想到 ， 凑 履 阿 帕 网 的 竟 是 它 的 两 位 设计 者 。Robert 后 来 
回忆 说 ， 当 他 把 工作 重心 从 阿 由 网 转 辐 TCP/AP 时 ， 吴 边 的 人 都 以 为 他 
的 事业 陷入 低谷 ， 而 实际 上 那 才 是 他 事业 的 真正 开始 。 

Robert 为 人 低调 ， 每 次 接受 采访 都 一 本 正经 。Vinton 热 情 外 向 ， 关 
于 他 的 趣事 很 多 。 比 如 他 和 女友 第 一 次 约会 时 去 了 艺术 博物 馆 。IT 男 
Vinton 在 一 幅 大 型 作品 前 位 立 良 久 ， 最 后 冒 出 一 句 评语 : “这 画 真 像 一 
只 巨大 的 新 鲜 汉 堡 包 >， 我 们 可 以 想象 他 的 画家 女友 当时 的 表情 。 当 
然 ， 找 个 技术 青年 当 男友 也 不 是 一 无 是 处 。 后 来 在 他 们 的 婚礼 上 ， 录 
音 机 突然 卡 达 了 “。YVinton 终 于 发 挥 了 一 把 特长 ， 和 伴 即 一 起 到 小 房间 
修 孙 音 机 了 “。 互 联网 造福 了 世界 ， 目 然 也 包括 Vinton 上 自己 的 生活 。 因 
为 夫妻 俩 都 有 听力 缺陷 ， 听 电话 非常 吃力 ， 电 子 邮 件 就 为 他 们 带 来 不 
少 便 利 。 


现在 人 们 说 到 TCP/IP 时 ， 指 的 已 经 不 止 是 TCP 和 IP 两 个 协议 ， 而 
是 包括 了 Application Layer 、Transport Layer 、Internet Layer 和 Network 
AccessLayer 的 四 层 模型 。TCP 处 于 Transport Layer， 而 IP 处 于 Internet 
Layer 。 鲜 为 人 知 的 是 ， 一 开始 这 两 个 协议 并 没有 分 层 ， 而 是 合 在 一 起 
的 。 当 时 的 计算 机 科学 家 Jon Postel 对 此 批评 说 : 

“we are Screwing up in our design of internet protocols by violating 
the Principle of layering. Specifically we are trying to use TCP to do two 
things: serve as a host level end to end protocol, and to serve as an internet 
packaging and routing protocol. These two things should be provided in a 
layered and modular way. I[ suggest that a new distinct internetwork 
protocol is needed, and that TCP be used strictly as a host level end to end 
protocol.”( 我 们 违背 了 分 层 原 则 ， 从 而 搞 砸 了 网 络 协议 的 设计 。 具 体 
来 说 ， 我 们 正在 尝试 使 用 TCP 来 做 两 件 事 : 作为 一 个 主机 级 别 的 端 到 
并 协 议 ; 同时 也 作为 网 络 的 分 组 和 路 由 协议 。 这 两 件 事 本 应 该 用 分 层 
和 模块 化 的 形式 来 实现 。 我 建议 设计 一 个 新 的 网 络 互联 协议 ， 并 且 把 
TCP 严 格 限制 为 主机 级 别 的 端 到 端 协 议 。) 

一 Jon Postel, IEN 2, 1977 

这 个 建议 一 年 后 被 采纳 了 ， 第 三 版 的 协议 决定 把 TCP 和 IP 分 离开 
来 ， 并 且 延 续 至 今 。 无 巧 不 成 书 ，Jon Postel 恰 好 是 Vinton 的 高 中 同 
学 ， 也 是 阿 由 网 项 目的 同事 。 他 在 1998 年 因 病 去 世 时 ，Vinton 为 他 写 
了 一 篇 感人 至 深 的 让 告 ， 并 且 作 为 RFC 2468 发 布 。 据 我 所 知 ， 这 是 唯 

一 篇 无 关 技 术 的 RFC。 对 一 位 计算 机 科学 家 来 说 ， 这 也 许 是 最 有 意 
义 的 纪念 方式 。 我 们 今天 还 可 以 通过 http:/tools.ietf.org/html/rfc2468 癌 

TCP/PP 的 设计 非常 成 功 。30 年 来 ， 底 层 的 带宽 、 延 时 ， 还 有 介质 
都 发 生 了 翻 天 履 地 的 变化 ， 顶 层 也 多 了 不 少 应 用 ， 但 TCP/IP 却 安 如 泰 
山 。 它 不 但 战胜 了 国际 标准 化 组 织 的 OSI 七 层 模型 ， 而 且 目 前 还 看 不 


到 被 其 他 方案 取代 的 可 能 。 第 一 代 从 事 TCP/IP 工 作 的 工程 师 ， 到 了 退 
体 年龄 也 在 做 着 旨 阳 产业 。 

令 人 费解 的 是 ， 现 在 的 大 学 课程 还 在 介绍 OSI 七 层 模型 。 它 和 
TCP/IP 模 型 的 对 应 关系 如 图 2 所 示 。 因 为 OSI 模 型 的 层 数 太 多 ， 很 多 学 
生根 本 理解 不 了 ， 其 至 连 顺 序 都 记 不 住 。 于 是 老师 们 就 用 “All People 
Seem To Need Data Processing” 来 帮助 记忆 ， 因 为 这 7 个 单词 的 站 字母 
和 OSI 模型 每 一 层 的 首 字 母 是 一 样 的 。 大 学 的 应 斌 教育 由 此 可 见 一 
班 。 更 奇怪 的 是 学 生 们 走出 校园 后 ， 会 发 现 这 个 条 重 的 七 层 模型 已 经 
没有 市 场 。 虽 然 历史 上 它 得 到 过 官方 的 大 力 文 持 ， 但 是 市 场 明 显 更 青 


睐 TCP/IP 四 层 模型 。 
OSI vs. TCP/IP 
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图 2 


按理 说 OSI 是 权威 组 织 ， 它 所 设计 的 模型 应 该 是 科学 的 。 为 什么 
反而 会 不 受 欢 迎 昵 ?9 很 多 专家 都 对 此 有 过 评论 ， 其 中 以 普度 大 学 特聘 
教授 Douglas Comer 的 批评 最 为 激烈 。 他 曾经 在 一 篇 文章 里 这 样 写 过 : 
“最 近 有 了 一 些 怀 人 的 发 现 : 我 们 都 知道 这 个 七 层 模型 是 由 一 个 小 组 
( 见 图 3) 完成 的 ， 但 大 家 不 知道 的 是 ， 这 个 小 组 有 一 天 深夜 在 酒吧 里 


谈论 类 国 的 娱乐 八卦 。 他们 把 迪斯尼 电影 里 7 个 小 敌人 的 名 字 写 在 餐巾 
纸 上 ， 有 个 人 开玩笑 说 7 对 于 网 络 分 层 是 个 好 数字 。 第 二 天 上 午 在 标准 
化 委员 会 的 会 议 上 ， 他 们 传阅 了 那 张 餐 巾 纸 ， 然 后 一 致 同 意 昨 晚 哆 醉 
时 的 重大 发 现 。 那 天 结束 时 ， 他 们 又 给 七 个 层次 重新 起 了 昕 上 去 更 科 
学 的 名 子 ， 于 是 模型 束 诞 生 了 。 


OSI 七 层 模 型 工作 小 组 的 合影 


图 3 


这 个 故事 告诉 我 们 : 如 果 你 是 标准 委员 会 中 的 工程 师 ， 请 不 要 和 同事 
喝酒 一 深夜 在 酒吧 里 开 的 一 个 拙劣 玩笑 ， 却 可 能 成 为 业界 几 十 年 挥 之 
不 去 的 琶 梦 。” 

Douglas 是 网 络 界 德高望重 的 前 硅 ， 他 回 到 普度 大 学 之 前 曾 是 
Cisco 的 Vice President of Research， 同 时 也 是 久负盛名 的 技术 作家 ， 所 
以 他 的 观点 很 有 代表 性 。 而 当时 业界 普通 对 竺 OSI 模型 的 抵触 态度 ， 
更 是 一 个 有 力 的 佐证 。 潍 好 到 了 今天 ，OSI 模 型 几乎 名 存 实 亡 了 ， 它 
对 我 们 的 影响 只 停留 在 还 没 来 得 及 更 新 的 教科 书 上 。 


(上 在 这 一 步 ， 客 户 端 找到 服务 器 的 portmap 进 程 ， 回 它 和 查询 NFS 进 程 
的 端口 号 。 然 后 服务 器 的 portmap 进 程 回 复 了 2049。portmap 的 功能 是 
维护 一 张 进程 与 端口 号 的 对 应 关系 表 ， 而 它 目 己 的 端口 号 111 是 众 所 周 
知 的 ， 其 他 进程 都 能 找到 它 。 这 个 角色 类 似 很 多 公司 的 前 台 ， 她 知道 
每 个 员工 的 分 机 号 。 当 我 们 需要 联系 公司 里 的 某 个 人 (比如 NES) 
时 ， 可 以 先 拨 前 台 (111)， 查 询 到 其 分 机 号 (2049)， 然 后 就 可 以 拨 这 个 
分 机 号 了 。 其 实 大 多 数 文 件 服务 絮 都 会 使 用 2049 作 为 NFS 并 口号 ， 所 
以 即便 不 先 咨询 portmap， 直 接连 2049 端 口 也 不 会 出 问题 。 

(2) 客户 问 蔚 试 连接 服务 器 的 NFS 进 程 ， 由 此 判断 2049 端 口 是 否 被 防火 
瘦 拦 截 ， 还 有 NFS 服 务 是 否 已 经 启动 。 

(3) 客户 端 再 次 联系 服务 器 的 portnap ， 询 问 mount 进 程 的 端口 号 。 与 
NEFS 不 同 的 是 ，mount 的 端口 号 比较 随机 ， 所 以 这 步 询 问 是 不 能 跳 过 
时 。 

(4) 客户 端 尝试 连接 服务 器 的 mount 进 程 ， 由 此 判断 1234 端 口 是 否 被 防 
火 墙 拦 截 ， 还 有 mountj 进 程 是 否 已 经 启动 。 

(5) 这 一 步 真 正 挂 载 了 /code 目 录 。 挂 载 成 功 后 ， 服 务 句 把 该 目录 的 file 
handle 告 诉 客户 端 (要 点 开 详 细 信 息 才能 看 到 File handle) 。 

(6) 在 我 看 来 这 一 步 没 有 必要 ， 因 为 之 前 已 经 试 连 过 NFS 了 ， 再 测试 一 
次 有 何 意 义 ? 我 猎 是 开发 人 员 不 小 心 重 复 调 用 了 同一 函数 ， 但 因为 没 
有 抓 包 ， 所 以 测试 人 员 也 没有 发 现 这 个 问题 。 

(7) 客户 端 获 得 了 该 文件 系统 的 大 小 和 空间 使 用 率 等 属性 。 我 们 在 客户 
端 上 执行 df 就 能 看 到 这 些 信息 。 

(8) 这 一 步 又 是 重复 操作 ， 更 让 我 怀疑 是 开发 人 员 的 路 包 。 这 个 例子 也 
说 明了 Wireshark 在 辅助 开发 中 的 作用 。 

(9) 这 个 fle handle 也 需要 从 包 的 详细 信息 里 才能 看 人 到。 就 如 之 前 提 到 
过 的 ，NFS 操 作文 件 时 使 用 的 是 fle handle, 所 以 要 先 通过 文件 名 找到 
其 file handle， 而 不 是 直接 读 其 文件 名 。 如 果 一 个 目 孙 里 文件 数量 巨 


0 


大 ， 获 取 file handle 可 能 会 比较 费时 ， 所 以 建议 不 要 在 一 个 目录 里 存放 
太 多 文件 。 

(10) 在 创建 一 个 文件 之 前 ， 要 先 检查 一 下 是 否 有 同名 文件 存在 。 如 果 
没有 才能 继续 写 ， 如 果 有 ， 要 询问 用 户 是 否 履 盖 原 文件 。 

(11) 这 是 COMMIT 操 作 。 对 于 async 方 式 的 WRITE Call， 服 务 器 收 到 
Call 之 后 会 在 真正 存盘 前 就 回复 WRITE Reply， 这 样 做 是 为 了 提高 写 性 
能 。 那 么 ， 客 户 端 怎么 知道 哪些 WRITE Call 已 经 真正 存盘 了 呢 ? 
COMMIT 操 作 就 是 为 此 而 设计 的 。 只 有 COMMIT 过 的 数据 才 算 真正 写 
好 。 


举重 若 轻 
“一 小 时 内 给 你 答复 ” 


在 武侠 小 说 里 看 到 过 一 段 话 ， 大 意 是 练习 焉 门牙 道 的 功夫 ， 很 快 
便 能 小 有 成 就 ， 但 永远 成 不 了 高 手 。 而 名 门 正派 的 武功 虽然 入 门 艰 
至 ， 进 步 缓 慢 ， 却 是 成 为 一 代 宗 师 的 必由之路 。 这 段 话 深 得 我 心 ， 学 
习 网 络 也 只 能 老 老 实 实地 去 参透 各 个 协议 ， 才 能 达到 最 高 境界 。 研 究 
协议 的 过 程 虽 然 枯 燥 缓慢 ， 但 是 不 可 或 缺 。 

有 的 技术 人 员 喜 欢 重 启 一 下 或 者 乱 试 一 通 来 碰 运 气 ， 昌 然 也 有 成 
功 的 时 候 ， 但 是 概率 很 低 。 如 果 一 个 人 经 党 有 这 样 的 好 运气 ， 那 去 周 
场 上 班 也 许 更 加 合适 。 我 最 近 处 理 过 的 一 个 案例 就 很 好 地 说 明了 这 一 
点 


NAO 


事情 是 这 样 的 : 现场 工程 师 搭建 了 一 台 文 件 服务 器 来 提供 NFS 共 
享 ， 可 是 客户 端 一 直 挂 载 不 上 ， 每 次 尝试 都 收 到 同一 个 报错 “access 
denied by server while mounting...”， 如 图 1 所 示 。 


paddya@localhost ~ 


File Edit View Search Terminal Help 
[root@localhost ~]# mount -0 ydp,nolock 19.32.186.77:/paddynmfs paddynmfs 9 
习 


mount .nfs: access denied by server White mounting 19.32.166.77:/paddynmfs 


图 1 


现场 工程 师 检 查 了 服务 器 和 客户 端的 所 有 配置 ， 但 实在 找 不 出 原 
因 ， 于 是 这 个 问题 就 拖 了 好 几 天 。 当 他 焦急 地 打 我 电话 时 ， 据 说 客户 
已 经 彻底 失去 耐心 了 ， 在 机 房 里 吃 哮 ,，“I am going to throw the box out 
of the window”。 我 只 好 安慰 他 说 , “放心 吧 ， 帮 我 抓 一 个 网 络 包 ， 一 
小 时 内 给 你 答复 。” 

之 所 以 敢 承 诺 这 么 短 的 时 间 ， 是 因为 我 已 经 处 理 过 上 百 个 类 似 的 
问题 。 自 从 用 Wireshark 学 习 了 NFS 的 协议 细节 后 ， 我 可 以 用 它 很 快 地 


解决 任何 挂 载 问题 ， 至 今 没 有 失手 过 。 其 实 一 小 时 还 是 保守 估计 ， 一 
般 5 分 钟 就 够 了 。 

现场 工程 师 很 快 就 把 配置 信息 和 网 络 包 传 过 来 了 : 

服务 器 IP: 

10.32.106.77 

NFS 共 享 的 访问 控制 |: 

/paddynmfs 192.168.26.139 (rw) 

# 只 允许 192.168.26.139 读 写 ， 其 他 客户 端 不 能 挂 载 

客户 端 IP ( 见 图 2) : 


是 
学 root@localhost'~ 


[zoctelocalhost ~]# ifconfig 
ethO Link encap:Ethernet HWaddr 00:0C:29:CB:74:A9 
inet eddr;192.168.26.139 Bcest;192.168.26.255 Mask:;255.255.255,0 


1nec6 addr: re80::20cC:29ff:fecb:74a9/64 Scope:Link 

UP BROADCAST RUNNING MULTICAST MIU:1500 Metric:1 

RX packets:699287 errors:O0 dropped:D overruns:D frame:0 
TX packets:737285 errore:0 dropped:D overruna:D carrier:D 
collisions:0 txgqucuclen:1000 

RX bytes:;188580400 |179.8 MiB) TX bytes:870784133 (830.4 MiB) 


图 2 


现场 工程 师 的 排查 过 程 如 下 所 示 。 
[root@localhost ~]#telnet 10.32.106.77 111 
Trying 10.32.106.77... 
Connected to 10.32.106.77 (10.32.106.77). 
[root@localhost ~]#telnet 10.32.106.77 1234 
Trying 10.32.106.77... 
Connected to 10.32.106.77 (10.32.106.77). 
[root@localhost ~]#telnet 10.32.106.77 2049 
Trying 10.32.106.77... 
Connected to 10.32.106.77 (10.32.106.77). 
[root@localhost ~]# showmount -e 10.32.106.77 


/paddynmfs 192.168.26.139 


作为 “ 碰 运 气 ” 步 骤 ， 现 场 工程 师 把 客户 端 和 服务 器 都 重启 过 了 
但 结果 还 是 一 样 。 

我 仔细 检查 完 以 上 信息 ， 结 论 和 现场 工程 师 一 样 一 一 服务 器 和 客 
户 端 的 配置 都 没 问 题 。 而 且 从 排查 过 程 还 可 以 知道 


。 从 telnet 的 输出 结果 可 见 portmap (111) 、mount (1234) 以 及 
NFS (2049) 进程 所 对 应 的 端口 都 是 可 达 的 ， 这 说 明 网 络 是 通 的 ， 没 
有 防火 墙 之 类 的 设备 拦截 了 挂 载 请 求 ; 


“。 从 showmount 的 结果 可 以 看 到 ， 挂 载 时 指定 的 共享 路 径 也 是 正确 
的 。 


到 这 里 我 也 有 点 迷惑 ， 一 时 想 不 出 问题 出 在 哪里 。 阅 读 以 下 内 容 
之 前 ， 建 议 你 停 下 来 思考 一 下 ， 还 有 什么 因素 可 能 导致 了 挂 载 失 败 ? 

幸好 杀手 铀 没有 出 ， 我 用 Wireshark 打 开 在 服务 器 上 抓 到 的 包 ， 然 
后 用 192.168.26.139 过 滤 了 一 下 ， 如 图 3 所 示 。 


[ 男 mount_fallyre.cap 一 EE 
File Edit Wew Go Capturc Anolyze Stotistics Telephony Tools WSinternal 日 dp 
芒 世 好 代 宙 | 已 固 基 多 晤 | 六 名 中 电 宕 旦 | 国 | 国 |QQQD| 枚 国 
Filter, |ipaddreq192.168.26439| [=] Erpression.. Clear Apply 
No. Source Destination Time Protocol Info 
图 3 
结果 竟然 是 空 的 ! 这 是 怎么 回 事 ? 我 又 换 了 一 个 过 滤 表 达 式 ， 把 
所 有 mount 包 显示 出 来 ， 结 果 见 图 4。 
Fiker mount [-] epson. Clear mpp 


fo 
V3 NULL Call (reply In 10) 
(Reply In - 


从 图 4 中 可 以 看 出 ， 客 户 端 10.32.200.45 发 送 了 mount 请 求 ， 但 被 服 
务 器 10.32.106.77 拒 绝 了 ， 这 倒 符合 “Access Denied” 的 症状 。 等 等 ， 客 
户 端的 IP 不 应 该 是 192.168.26.139 吗 ， 怎 么 变 成 10.32.200.45 了 ? 这 时 候 
我 悦 然 大 悟 : 两 个 网 络 之 间 估 计 存 在 NAT (Network Address 
Translation) ， 当 客户 端 发 出 的 请 求 经 过 NAT 设 备 时 ，Source IP 被 改 掉 
了 (图 5 显示 了 这 个 过 程 ) 。 


Src: 192.168.26.139 Src: 10.32.200.45 


Dst: 192.168.26.139 Dst: 10.32.200.45 


由 于 服务 器 上 的 访问 控制 只 允许 192.168.26.139 访 问 ， 所 以 来 自 
10.32.200.45 的 挂 载 请 求 自 然 被 拒绝 了 。 

我 把 分 析 报告 发 给 现场 工程 师 。 他 和 客户 沟通 之 后 ， 果 然 证 实 了 
我 的 分 析 。 最 终 把 服务 器 和 客户 端 连 到 一 个 网 络 中 就 挂 载 上 了 。 

实施 部 门 的 经 理发 来 一 封 热情 洋溢 的 感谢 信 ， 这 让 我 想起 几 年 前 

一 次 得 到 Patrick 的 帮助 时 ， 我 也 表达 过 同样 的 感激 之 情 。 其 实 我 们 
该 感谢 的 ， 是 Gerald Combs。 假如 没有 他 的 Wireshark， 我 可 能 至 
今 还 不 理解 NFS 的 挂 载 过 程 ， 更 不 要 说 一 小 时 内 融 找 出 问题 。 那 天 我 
把 MSN 签名 档 改 成 了 “Life is tough, but Wireshark makes it easy”o 


午夜 铃 再 


“ 叮 铃 铃 .….. 叮 铃 铃 ..……...” 一 阵 手 机 铃声 打 断 了 我 的 美梦 。 
我 悦 虱 中 按 下 接听 键 ， 竟 然 是 老板 的 声音 ,“ 阿 满 ， 真 不 好 意思 
这 么 晚 还 打 你 电话 。" 一 番 寒 辽 之 后 ， 有 了 下 面 的 对 话 。 


老板 : “我 司 在 为 xx 电视 台 实 施 Isilon， 现 场 团队 被 一 个 读 性 能 的 问题 
卡 了 好 几 天 了 。 所 以 美国 总 部 刚刚 打 电 话 给 我 ， 希 望 一 位 懂 网 络 的 专 
家 能 尽快 飞 到 北京 ， 你 看 ..…....” 

我 :“ 我 看 最 近 招 的 两 位 CCIE 都 不 错 ， 让 他 们 去 锻炼 一 下 嘛 。 我 明天 
要 搬家 ， 老 婆 又 在 发 烧 。” 

老板 : “这 个 项 目 对 我 们 太 重 要 了 ，# 尘 9%*G@S$A&.……… (此 处 省 略 300 
字 ) 你 完全 不 用 担心 ， 我 会 派 几 个 人 蔡 你 搬家 。” 

我 : 〈 赶 在 老板 派 人 帮 有 我 照顾 老婆 之 前 ) “好 吧 ， 我 准备 一 下 。” 

挂 了 电话 ， 赶 紧 搜 索 一 下 Isilon， 才 知道 是 我 司 最 近 收 购 的 NAS， 
以 性 能 卓越 著称 。 是 什么 问题 能 让 实施 团队 卡 住 好 几 天 呢 ? 看 看 时 钟 
已 经 是 凌晨 2 点 了 ， 便 让 现场 的 工程 师 先 把 网 络 包 传 上 来 再 说 。 

5 点 钟 起 床 ， 司 机 已 经 等 在 楼 下 了 (我 司 对 待 甲 方 的 态度 和 效率 ， 
常常 让 员工 们 妒忌 ) 。 一 路 疾 驶 到 办 公 室 ， 网 络 包 也 已 经 上 传 完 毕 。 
我 用 Wireshark 粗 略 一 看 ， 发 现 很 多 包 发 生 了 重 传 (Retransmission) ， 
而 且 还 有 大 量 乱 序 (Out-Of-Order) 。 下 面 是 wireshark 的 分 析 结果 。 

重 传 〈 见 图 1) : 


= 
国 Wireshark: 1066809 Expert Inios 


| Errors: 1 (713343) | Warnings: 5 (87072), Notes: 118 (34861) |Chats: 4 (231533) | Details: 1066809 


Group 4 Protocol 4 Summary 4 Count 


ence TCP Retroansmission (suspected) 


1 
乱 序 ( 见 图 2) : 
[ | 
国 wireshark: 1066809 Expart Infos [9 忆 
Ss 
|Errors: 1 13343) | Warnings: 5 (87072) ‘Notes: 118 (34861) | Chats: 4 (231533) | Details: 1066809 
Group 4 Protocol 4 Summary 4 Count 


DH Sequence TCP Previous segment lost (common at capture 7921 
OQut-Of-Drder segment 


图 2 


我 的 第 一 反应 便 是 乱 序 导 致 了 重 传 ， 从 而 影响 了 性 能 。 乱 序 为 什 
么 会 导致 重 传 呢 ? 本 书 的 TCP 相 关内 容 其 实 已 有 详细 解释 ， 下 面 再 简 
单 介 绍 一 下 。 

在 正常 情况 下 ， 网 络 包 到 达 接 收 方 时 的 Seq 号 应 该 是 顺序 的 ， 比 如 
在 每 个 包 长 度 为 1460 的 情况 下 ，Seq 号 可 能 是 这 样 的 : 1460，2920， 
4380..….. 因 此 接收 方 能 算出 下 一 个 包 的 Seq 号 应 该 是 什么 。 比 如 4380 之 
后 应 该 是 4380+1460=5840， 假 如 收 到 的 不 是 5840， 接 收 方 就 知道 包 序 
乱 了 。 这 时 它 应 该 回复 一 个 包 给 发 送 方 ， 说 “我 要 的 是 5840 〈 即 Ack 
5840) ”。 如 果 接 下 来 收 到 的 包 仍 然 不 是 5480， 那 接收 方 就 再 回复 一 次 
“我 要 的 是 5840”。 

而 对 于 发 送 方 来 说 ， 持 续 收 到 “我 要 的 是 5840” 可 能 意味 着 5840 跑 
到 其 他 包 后 面 了 ， 也 可 能 意味 着 5840 已 经 丢失 。RFC 里 这 样 定 义 : 如 
果 发 送 方 收 到 3 个 及 以 上 重复 的 “我 要 的 是 x”， 即 可 认为 包 x 已 经 丢失 ， 
应 当 启 动 快速 重 传 。 图 3 演示 了 这 个 过 程 。 


乱 序 触发 快速 重 传 


4380 
7300 
SiOU 
1220 
| 1680 


发 送 广 接收 方 


图 3 


最 终 接收 方 会 收 到 两 个 一 样 的 Seq=5480， 即 乱 序 了 的 原始 包 ， 还 
有 一 个 重 传 包 。 其 中 第 二 个 到 达 的 包 相 当 于 浪费 了 。 


我 在 Wireshark 上 随机 挑 出 几 个 重 传 包 ， 发 现 方向 都 是 从 Isilon 到 
Windows 的 ， 恰 好 符合 读 性 能 差 的 症状 。 分 析 到 这 里 ， 我 仿佛 看 到 一 
丝 明光。 一 般 来 说 ， 乱 序 可 能 是 由 发 送 方 或 者 网 络 设备 导致 的 ， 我 还 
应 该 在 发 送 方 抓 包 进一步 调查 。 但 因为 手头 上 只 有 在 接收 方 抓 的 包 ， 
所 以 只 能 到 了 现场 再 说 了 。 在 赶 往 机 场 的 路 上 ， 我 草拟 了 一 个 计划 。 

1. 把 Isilon 和 Windows 客 户 端 连 到 同一 人 台 空 内 的 交换 机 ， 尽 量 排 
除 网 络 设备 

的 影响 。 

2. Isilon 和 其 他 服务 器 一 样 ， 应 该 有 类 似 NIC teaming 的 功能 。 根 
据 我 的 经 验 ， 乱 序 有 了 时候 就 是 由 teaming 导 致 的 ， 可 以 尝试 关闭 。 我 不 
久 前 还 磁 到 过 Large Segment Offload (LSO) 导致 的 乱 序 ， 也 是 一 个 考 
虑 因素 。 

3. 实在 不 行 ， 就 在 Isilon 和 Windows 上 同时 抓 包 ， 两 者 一 对 比 便 
能 发 现 很 多 问题 。 

到 了 北京 已 经 是 下 午 了 。 和 几 位 来 自 中 国 香 港 、 美 国 、 和 日 本 的 
工程 师 边 吃 边 聊 。 原 来 他 们 这 几 天 做 过 很 多 方面 的 尝试 ， 包 括 我 计划 
中 的 第 1 步 ， 但 是 性 能 没有 任何 改变 。Windows 客 户 端 也 换 过 几 人 台 ， 但 
结果 都 差不多 。 目 前 来 看 网 络 设备 和 客户 端 都 不 是 瓶颈 ， 估 计 原 因 就 
出 在 Isilon 上 了 。 也 许 明 天 关闭 Isilon 上 的 NIC teaming 和 LSO， 问 题 就 
解决 了 吧 ? 这 个 时 候 我 还 是 挺 乐 观 的 。 

第 二 天 一 大 早 便 赶 到 了 xx 电视 台 的 新 大 楼 ， 比 约定 时 间 早 了 3 小 
时 。 这 是 我 第 一 次 体会 到 现场 工程 师 的 平 苦 一 所 有 操作 都 要 等 待 客户 
审批 ， 搭 个 测试 环境 就 花 了 半天 时 间 ; 而 且 五 六 个 人 只 能 共用 一 台电 
脑 ， 我 在 操作 的 时 候 其 他 工程 师 就 只 能 等 着 ; 最 可 怕 的 是 机 房 里 的 冷 
气 ,， 待 了 几 个 小 时 之 后 实在 招架 不 住 。 

盏 好 一 切 都 在 按 计 划 进 行 。 我 们 终于 在 Isilon 上 找到 Large Segment 
Offload 和 NIC teaming 的 开关 ， 并 满怀 希望 地 关闭 了 它们 。 当 我 启动 测 
试 脚本 的 时 候 ， 几 位 饱 受 折磨 的 现场 工程 师 都 凑 过 来 看 .……. 可 惜 结果 


令 人 大 跌眼镜 一 读 性 能 比 之 前 还 差 ! 我 顿时 觉得 非常 烛 粹 ， 对 着 等 待 
我 下 一 步 建 议 的 同事 们 ， 只 能 说 先 抓 个 包 看 看 吧 。 这 一 抓 包 更 是 意 
外 ， 居 然 看 不 到 乱 序 的 包 了 ! 可 见 我 之 前 的 猜测 没有 错 ， 乱 序 是 由 
NIC teaming 或 者 LSO 导 致 的 。 但 为 什么 消除 了 乱 序 之 后 性 能 没有 改善 
呢 ? 再 看 看 重 传 率 ， 果 然 还 是 很 高 。 

到 这 里 只 剩 下 一 个 解释 了 一 重 传 并 非 乱 序 引起 的 ， 也 就 是 说 从 一 
开始 就 走 错 方向 。 我 不 得 不 一 个 人 坐 到 角落 里 ， 重 新 研究 昨天 拿 到 的 
网 络 包 。 当 我 逐个 检查 乱 序 的 包 时 ， 果 然 看 到 了 一 个 很 有 趣 的 现象 。 
如 图 4 所 示 ， 虽 然 乱 序 的 包 很 多 ， 但 只 是 相 邻 两 个 包 的 颠倒 ， 因 此 接收 
方 只 发 出 了 1 个 “我 要 的 是 x”"， 而 不 会 凑 满 3 个 以 上 相同 的 “我 要 的 是 x” 
来 触发 重 传 。 这 就 解释 了 为 什么 重 传 不 是 由 乱 序 导致 的 。 


小 幅度 乱 序 不 触发 快速 重 传 


发 送 方 接收 方 


图 4 


举 个 更 通俗 的 例子 ， 当 序号 为 1/、2、3、4、5、6 的 一 系列 包 到 达 
接收 方 时 ， 如 果 次 序 乱 成 了 2、1、4、3、6、5， 是 不 会 触发 快速 重 传 
的 ; 但 如 果 乱 成 2>、3、4、5、6、1， 就 会 导致 重 传 。 

再 分 析 消 除 乱 序 后 在 接收 方 抓 到 的 网 络 包 ， 现 象 就 更 加 有 趣 了 。 
如 图 5 所 示 ， 接 收 方 明明 收 到 了 Seq 20440 (Frame No. 3) ， 但 它 竟然 


发 送 了 4 个 “Ack 20440” 给 发 送 方 ， 从 而 促使 发 送 方 重 传 了 Seq 20440 
(Frame No. 13) 。 


EEC 
一 
一 
Seq 21900 CR Seq 21900 
一 
一 
Seq 26280 ee: Seq 26280 
一 
一 
| 10 [ack20440 (| Ack 20440 
一 
IE 


图 5 


这 个 现象 实在 太 “ 不 科学 * 了 。 按 理 说 这 个 包 是 在 接收 方 抓 的 ， 
Wireshark 上 也 已 经 显示 了 “Seq 20440”， 就 意味 着 接收 方 已 经 收 到 。 为 
什么 还 会 连 发 4 个 Dup Ack 呢 ?我 百 思 不 得 其 解 ， 不 过 已 经 隐约 感觉 到 

望 一 只 要 解 开 这 个 谜团 ， 问 题 或 许 就 能 解决 了 。 机 房 里 强劲 的 冷气 
让 我 有 些 分 神 ， 于 是 我 独自 践 到 走廊 上 ， 从 头 开始 分 析 。 

我 回忆 起 RFC 中 关于 快速 重 传 的 描述 :“ 当 接收 方 收 到 比 期 望 值 大 
的 Seq 时 ， 就 要 向 发 送 方 Ack 它 期 望 的 Seq 值 ..…....” 根 据 这 个 理论 ， 难 道 
接收 方 在 收 到 20440 之 前 ， 已 经 收 到 了 21900、23360、24820 和 26280 这 
4 个 包 ? 从 Wireshark 里 看 20440 明 明 是 排 在 这 4 个 包 前 面 的 ! 


会 不 会 是 20440 本 身 的 checksum 有 问题 ， 被 接收 方 抛弃 了 呢 ? 再 看 
看 图 5 中 最 后 两 个 包 ， 重 传 的 Seq 20440 (Frame No. 13) 到 达 接 收 方 之 
前 ， 接 收 方 已 经 回复 了 “Ack 27740” (Frame No. 12) ， 这 表明 接收 方 
收 到 了 27740 之 前 的 所 有 包 ， 包 括 20440。 也 就 是 说 ，20440 真 的 是 被 移 
到 26280 后 面 了 ， 而 不 是 因为 checksum 无 效 被 抛弃 。 

那 是 什么 因素 导致 接收 方 把 20440 移 到 26280 后 面 呢 ? 目前 我 不 得 
而 知 ， 但 TCP/PP 是 分 层 协 作 的 ， 也 许 是 网 络 层 把 包 交 给 TCP 层 时 打 乱 
了 。 

分 析 到 这 里 ， 可 以 肯定 重 传 的 根本 原因 就 是 接收 方 自身 的 乱 序 ， 
而 网 络 设备 和 Isilon 都 被 锋 枉 了 。 这 是 我 第 一 次 看 到 此 类 现象 ， 不 但 颠 
覆 了 我 昨天 的 分 析 结 果 ， 而 且 难 以 说 服 现场 工程 师 和 客户 。 他 们 已 经 
测试 了 7 台 客 户 端 ， 但 结果 都 是 一 样 的 ， 难 不 成 7 台 都 出 了 同样 的 问 
题 ? 这 概率 低 得 令 人 难以 置信 。 接 下 来 就 是 一 场 场 辩论 ， 电 视 台 请 来 
了 他 们 的 网 络 专家 ， 和 希望 说 服 我 进一步 检查 Isilon。 我 无 法 向 他 解释 为 
何 所 有 客户 端 都 有 同样 的 问题 ， 他 也 不 能 反驳 Wireshark 上 显示 的 证 
据 。 一 直 拉 锯 到 夜里 12 点 都 没有 了 吃 上 饭 ， 一 位 同事 已 经 出 现 了 低 血 糖 
症状 。 还 好 最 后 查 到 一 个 重要 信息 ， 原 来 那 7 台 客户 端 都 是 用 同一 张 
ghost 盘 安 装 的 ， 客 户 终于 让 步 ， 答 应 明天 新 装 7 台 客户 端 供 我 们 测 
试 。 但 同时 也 有 一 个 要 求 ， 明 早 必须 提供 一 个 官方 的 分 析 报 告 ， 证 明 
的 确 是 客户 端 导致 的 问题 。 

草草 吃 完 晚 饭 ， 已 经 是 凌晨 1 点 。 酒 店 非常 贴心 ， 为 我 准备 好 了 巧 
克 力 ， 拆 好 拖鞋 ， 甚 至 掀 好 了 被 子 ， 可 惜 这 些 我 都 没有 机 会 享受 。 等 
写 完 分 析 报 告 ， 已 经 到 了 凌晨 3 点 半 。 没 睡 下 多 久 ，morning call 又 来 
a 再 次 感叹 现场 工程 师 的 平 苦 ， 这 只 是 我 第 三 个 晚上 没 睡 好 ， 而 
他 们 估计 已 经 有 一 周 了 。 我 睡 眼 慢 愉 地 到 了 电视 台 门 口 ， 远 远 看 到 树 
林 里 似乎 有 家 咖啡 店 ， 像 看 到 救命 稻草 一 样 直 奔 过 去 。 到 了 近 处 才 发 
现 是 “Post Office”， 远 看 还 真 像 是 coffee..………. 


现场 工程 师 手 脚 采 利 ， 很 快 就 搭 好 新 的 环境 。 到 早上 10 点 钟 我 们 
又 一 次 启动 测试 脚本 ， 这 一 次 每 台 的 读 性 能 都 达到 100MB/s 以 上 ， 大 
大 超过 了 客户 80MB/s 的 预期 。 现 场 的 工程 师 异常 兴奋 ， 给 测试 结果 拍 
照 、 截 屏 ， 甚 至 拍 了 一 段 视频 。 他 们 为 这 个 项 目 压抑 太 久 了 ， 需 要 好 
好 庆祝 。 

而 我 也 背 起 笔记 本 ， 向 这 栋 造型 诡异 的 建筑 、 向 这 个 奇怪 的 问题 
告别 ， 匆 匆 赶 往 首 都 机 场 。 家 里 还 有 发 烧 的 老婆 ， 没 搬 完 的 家 .……. 


深 藏 功 与 名 


每 当 我 要 写 一 个 真实 的 Wireshark 案 例 时 ， 感 觉 就 像 在 自我 表扬 。 
这 实在 不 符合 阿 满 低调 的 个 性 ， 但 是 没 办 法 ， 谁 让 Wireshark 这 么 神奇 
呢 ? 不 久 前 我 处 理 的 一 个 Data Domain 项 目 ， 便 是 极 好 的 例子 。 

我 之 前 对 Data Domain 的 了 解 并 不 多 ， 只 知道 是 普林斯顿 大 学 一 位 
华人 教授 的 发 明 ， 后 来 被 我 司 收 购 了 。 所 以 当 项 目 经 理 打 我 电话 时 ， 
也 是 听 得 一 头 雾 水 。 大 概 了 解 到 的 症状 是 多 人 台 AIX 同 时 往 Data Domain 
读 与 数据 〈 如 图 1 所 示 ) 。 写 的 时 候 性 能 都 很 好 ， 能 超过 90MB/s; 但 
读 的 时 候 性 能 却 很 差 ， 在 20MB/s 以 下 。 驻 场 的 团队 已 经 耗 在 上 面 好 几 
天 了 ， 却 一 直 没 有 进展 ， 留 给 我 的 时 间 已 经 不 多 了 。 


10Gbit/s 


图 1 


鉴于 项 目的 紧迫 性 ， 我 挂 了 电话 便 立 即 出 发 。 还 好 这 个 客户 的 数 
据 中 心 在 上 海 郊 区 ， 我 得 以 在 路 上 仔细 分 析 。 

1. 一 般 存 储 设备 都 是 读 比 写 快 ，Data Domain 应 该 也 不 例外 。 目 
前 的 现象 是 读 比 写 慢 得 多 ， 所 以 根本 原因 应 该 不 在 Data Domain 本 身 。 

2. 网 络 很 值得 怀疑 。 一 般 存 储 端的 带宽 大 ， 客 户 端 的 带宽 小 。 读 
文件 时 数据 从 大 带宽 进入 小 带宽 ， 就 如 同 大 河水 流入 小 河 ， 有 可 能 会 
溢出 (表现 在 网 络 上 就 是 拥塞 ) 而 导致 性 能 问题 。 写 文件 时 方向 相 
反 ， 所 以 拥塞 概率 低 ， 性 能 就 会 好 一 些 ， 正 好 符合 这 个 案例 的 症状 。 

3. 只 要 在 两 端 各 抓 一 个 网 络 包 ， 就 能 证 实 我 的 猜测 。 

中 午 12 点 ， 终 于 到 达 数 据 中 心 。 我 让 司机 在 门口 等 一 会 ， 估 计 很 
快 就 能 出 来 了 ( 顾 有 点 温 酒 斩 华 雄 的 气概 ) 。 结 果 见 到 客户 时 ， 人 家 
说 午睡 时 间 到 了 ， 一 个 小 时 后 再 战 ， 说 完 便 从 桌子 底下 拉 出 折 僵 床 
来 。 我 只 能 感叹 同行 不 同 命 一 忙碌 如 我 ， 能 保证 夜间 睡 7 小 时 就 不 错 
了 ， 哪 里 敢 奢 望 午睡 ? 只 好 叫 司机 先 回 家 ， 下 午 再 来 接 我 。 

好 不 容易 等 到 客户 收集 好 网 络 包 ， 用 Wireshark 打 开 一 看 ， 果 然 发 
现 了 好 多 重 传 《如 图 2 所 示 ) 。 重 传 对 性 能 的 影响 是 极 大 的 ， 即 便 是 
0.5% 的 比例 也 会 使 性 能 大 幅度 下 降 。 


Wireshark: 51375 Expert Infos 


‘Errors: 0 (0) | wwarnings: 4 (15911) | Nbtes; 360 (34363) Ichaks: 1 (1101) | Detats; 51375| 


Sroup 4 Frotocol ~ 5ummary 4 Count 


Seouence a Retransmission (suspercted) 


图 2 


我 随机 看 了 几 个 重 传 包 ， 发 现 方 向 都 是 从 Data Domain 到 AIX 的 。 
说 明 这 些 包 从 Data Domain 出 来 之 后 ， 在 路 上 丢失 了 ， 最 终 没有 到 达 
AIX。Data Domain 因 为 一 直 没 有 等 到 AIX 的 确认 包 ， 所 以 只 能 选择 重 
传 。 

这 就 意味 着 我 之 前 在 路 上 的 推测 是 正确 的 ， 网 络 上 存在 瓶颈 。 客 
户 也 确认 AIX 端 的 带宽 只 有 存储 端的 1/10， 是 可 能 有 问题 。 不 过 由 于 
网 络 项 目 已 经 实施 完毕 ， 无 法 变动 ， 所 以 只 能 从 Data Domain 和 AIX 上 
想 办 法 。 


明明 知道 问题 发 生 在 网 络 上 ， 却 要 到 存储 端 和 客户 端 上 去 想 办 
法 ， 是 不 是 有 点 头痛 医 脚 的 感觉 ? 但 这 的 确 是 可 行 的 ， 我 至 少 能 想到 
至 个 方案 。 

方案 1. 把 Data Domain 的 发 送 窗口 强制 成 较 小 的 值 ， 这 样 每 次 发 
ee 拥塞 的 概率 也 减 小 了 。 就 像 大 河 里 流 的 水 量 

民 少 ， 即 便 流入 小 河 也 不 会 漫 出 来 一 样 。 发 得 慢 当 然 对 性 能 有 影响 ， 

和 所 以 总 性 能 反而 有 所 提升 。 该 方案 的 缺点 是 限制 
了 Data Domain 给 所 有 网 络 设备 发 送 数据 的 速度 ， 不 仅 是 针对 AIX。 

方案 2. 把 AIX 的 接收 窗口 强制 成 较 小 的 值 。 这 样 Data Domain 给 
AIX 传 数据 时 的 发 送 窗口 就 被 限制 了 ， 而 且 给 其 他 客户 端 发 数据 时 不 
受 影响 。 但 该 方案 的 缺点 是 限制 了 AIX 从 所 有 网 络 设备 接收 数据 的 速 
度 ， 不 只 是 针对 Data Domain。 

以 上 两 个 方案 都 需要 选 定 一 个 较 小 的 窗口 值 ， 这 个 值 要 怎么 算出 
来 呢 ? 图 3 是 一 个 丢 包 的 例子 ， 发 送 方 一 口气 发 出 6 个 包 ， 但 其 中 最 后 
一 个 丢失 了 ， 最 后 导致 了 超时 重 传 。 


拥塞 窗口 的 估算 


发 送 方 接收 方 
图 3 


从 图 3 中 可 以 估算 出 丢 包 时 的 拥塞 点 大 约 为 前 5 个 包 所 携带 的 字 节 
数 。 只 要 按 这 个 方法 随机 找 出 多 个 拥塞 点 ， 就 大 概 能 选 定 合适 的 窗口 
值 了 。 

方案 3. 图 2 中 的 Wireshark 截 图 显示 重 传 的 包 为 5190、5192、 
5194......5230 (20 个) ， 而 且 这 些 重 传 包 都 是 连续 的 (图 4 显示 了 其 
中 的 一 部 分 ) 。 


No， Time Source Destination Protocol Info 

5190 0.313843 10.3.130.135 10.3.128.170 RPC [TCF Retransmission] Continuation 

5191 0.313853 10.3.128.170 10.3,.130.135 TCP 1023 > nfs [AcK] 5eq-14137 Ack-6108097 
5192 0.314132 10.3.130.135 10.3.128.170 RPC Ee Retransmission] Continuation 

5193 0O.314154 10.3.128.170 053.130.135 TCP 1023 > nfs [AcK] Seq-14137 Ack-6109545 
5194 0.314176 40535 荆 3075 二 35 10.3.128.170 RPC [TcP Retransmission] Continuation 

5195 0.314181 10.3.128.170 10.3.130:135 TCP 1023 > nfs [ACK] Seq-14137 Ack-6110993 
5196 0.314426 10.3.130.135 10.3.128.170 RPC [TcP Retransmission] Continuation 

5197 0.314432 10.3.128.170 10.3.130.135 TCP 1023 > nfs [AcK] Seq=14137 Ack=6112441 
51L98 0.314445 10.3.130.135 10.3.128.170 RPC [TcP Retransmission] Continuation 

5199 0.314450 10.3.128.170 40.35130. 435 TCP 1023 > nfs [AcK] seq=14137 Ack=6113889 
5200 0.314462 10.3.130.135 10.3.128.170 RPC [TCP Retransmission] Continuation 

终 4 


但 是 当 我 检查 接收 方 的 网 络 包 时 ， 发 现 其 实 只 有 5190 的 原始 包 是 
真正 丢失 了 ， 其 他 的 包 都 到 达 了 接收 方 ， 所 以 没 必 要 重 传 。 那 为 什么 
发 送 方 要 重 传 这 么 多 呢 ? 这 是 因为 发 送 方 发 现 5190 的 原始 包 丢 失 后 ， 

无 法 确定 后 续 的 其 他 包 是 否 也 丢 了 ， 只 好 选择 全 部 重 传 。 而 接收 方 虽 
然 知 道 丢 了 哪些 包 ， 却 没有 任何 机 制 可 以 告知 发 送 方 。 这 个 问题 其 实 
在 1996 年 的 RFC 2018 中 就 已 经 给 出 了 解决 方案 ， 它 就 是 Selective 
Acknowledgment， 简 称 SACK。 在 接收 方 和 发 送 方 都 启用 SACK 的 情 ; 
下 ， 接 受 方 可 以 告诉 发 送 方 “我 没收 到 的 只 是 5190 的 原始 包 ， 但 是 我 收 
到 了 其 他 的 。” 因 此 发 送 方 只 需 重 传 5190 即 可 。 在 启用 了 SACK 的 网 络 
包 中 ， 我 们 能 在 Dup Ack 包 里 看 到 这 些 信息 。 图 5 是 在 一 个 启用 SACK 
的 环境 中 抓 的 包 ， 最 底部 就 是 SACK 信 息 。 


Source Destination Time Protocol Info 
1334 10.114.140-100 10.114.130.100 2013-01-15 09:56:29.139822 Tcp [Tcp Du Ack 133141] ddi-tcp-1 > 49454 [ACK] seq-1105 Ack=991851 
a 10.114.140.100 10.114.130.100 2013-01-15 09;56:29.143728 TCP Dr Dup AcK 1331#2] doi- EE 2 > -A454 Dx a Ack-991651 
36 10. 114.140.100 10.114,130.100 2013-01-19 09:56:29.143728 TCP p Dup ACK 1331#3] 4di-tcp- 工 ACK] Seq=1109 Ack=3918 


Je- relative) 
i edge = 996t 75 (relative) 


图 5 


把 图 5 中 的 “Ack=991851” 和 “SACK=992461-996175” 两 个 信息 综合 
起 来 ， 发 送 方 就 知道 991851~992460 的 包 没 有 收 到 ， 而 后 面 的 992461 
~~996175 的 包 反 而 已 经 收 到 了 。 

因为 本 案例 中 存在 大 量 不 必要 的 重 传 ， 而 且 Dup Ack 包 中 也 没有 
SACK 信 息 ， 已 经 足以 说 明 SACK 没 有 启用 。 我 决定 先 不 限制 发 送 窗 
口 ， 把 SACK 打 开 再 说 。 是 否 启用 SACK 是 在 TCP 三 次 握手 时 协商 决定 


的 ， 如 图 6 中 方 框 内 的 参数 所 示 。 只 要 双方 中 有 一 方 没 有 发 
“SACK_ PERM= 1 ee 会 用 SACK。 


图 6 


我 们 分 别 检查 了 DataDomain 和 AIX， 果 然 发 现 AIX 上 默认 关闭 了 
SACK。 于 是 客户 在 AIX 上 运行 了 “no -p -o sack=1” 命 令 ， 读 性 能 立即 
就 凯 升 到 90MB/M 以 上 ， 远 远 超 过 项 目 需求 。 有 了 这 个 结果 ， 我 也 不 考 
虑 方案 1 和 方案 2 了 ， 毕 竟 都 有 副作用 。 

在 他 们 询问 我 的 名 字 前 ， 我 已 经 关上 和 车门 ， 只 留 下 一 个 伟岸 的 背 
影 ， 深 藏 功 与 名 。 其 实心 里 还 有 一 个 怨念 : 为 什么 他 们 就 可 以 午睡 ? 


棋 着 对 手 


很 多 IT 圈 的 前 厘 都 有 过 枯 不 卉 言 的 经 历 ， 尤 其 是 在 运 维 部 门 。 为 
了 挽救 系统 ， 不 少 人 曾经 在 冰冷 的 机 房 连续 工作 十 多 个 小 时 ， 旁 边 还 
站 着 吃 哮 的 上 司 。 我 从 来 没有 做 过 一 线 工 程 师 ， 所 以 没有 经 历 过 什么 
惊 心 动 证 的 时 刻 。 如 果 要 跟 读 者 分 享 一 个 印象 最 深刻 的 案例 ， 我 首先 
想到 的 是 一 个 不 算 紧 急 ， 却 特别 考验 人 的 问题 ， 至 今 想起 来 还 心 有 余 
怪 。 

那 是 一 位 澳洲 客户 的 文件 服务 器 ， 它 同时 为 多 台 Linux 应 用 服务 
提供 NFS 访 问 。 系 统 在 实施 阶段 非常 顺利 ， 于 是 便 择 日 上 线 了 。 人 
的 是 到 了 生产 环境 中 ， 应 用 服务 器 访问 文件 时 偶尔 会 卡 一 下 ， 而 且 这 
症状 的 出 现 是 不 定时 的 、 稍 纵 即 逝 的 。 谁 也 不 知道 接 下 来 是 什么 时 
候 ， 发 生 在 哪 台 应 用 服务 器 上 。 经 验 丰 富 的 系统 管理 员 已 经 检查 过 应 
用 服务 器 、 文 件 服务 器 和 网 络 设备 的 所 有 上 日志， 可惜 没有 发 现 有 价值 
的 信息 。 


老 油条 的 工程 师 都 知道 ， 这 类 问题 是 最 “ 令 人 讨厌 ”的 ， 因 为 既 无 
报错 信息 ， 也 不 知道 何 时 会 重 现 ， 根 本 无 从 入 手 。 大 家 宁愿 处 理 丢 数 
据 或 者 宕 机 的 紧急 事故 ， 也 不 愿意 去 接手 这 类 问题 。 可 怜 的 系统 管理 
员 不 时 被 他 的 用 户 埋 妨 ， 然 后 再 把 压力 转移 到 售后 工程 师 身上 。 一 线 
的 售后 工程 师 拉 了 一 个 礼拜 没有 解决 ， 只 好 升级 到 二 线 。 二 线 工 程 师 
撑 了 一 个 礼拜 也 没有 收获 ， 最 终 找到 了 我 。 大 家 可 以 想象 当时 那 位 系 
统管 理 员 已 经 有 多 么 洱 丧 。 

问题 到 了 我 这 里 就 没 法 再 升级 了 ， 只 能 硬 着 头皮 接 下 来 。 我 是 这 
样 分 析 该 症状 的 。 

1. 访问 文件 时 感到 卡 ， 可 能 是 文件 服务 器 负载 过 重 ， 导 致 了 响应 
慢 ; 也 可 能 是 网 络 拥塞 ， 发 生 了 连续 多 次 的 重 传 。 

2. 虽然 无 法 预测 问题 发 生 的 时 间 ， 但 如 果 在 业务 繁忙 时 抓 个 网 络 
包 ， 应 该 多 少 能 看 到 一 些 端倪 。 

当 我 把 这 个 想法 告诉 系统 管理 员 时 ， 得 到 的 回答 却 让 我 颇 感 意 
外 :“ 存 储 上 的 网 络 包 我 已 经 抓 过 了 ， 分 析 下 来 一 点 问题 都 没有 。” 一 
在 我 以 往 接触 过 的 客户 中 ， 不 要 说 分 析 网 络 包 了 ， 很 多 人 连 抓 包 都 不 
会 。 这 个 分 析 可 靠 吗 ? 还 没 等 我 开口 ， 他 似乎 看 透 了 我 的 心思 , “网络 
包 上 传 到 FTP 了 ， 你 也 分 析 一 下 吧 。” 

用 Wireshark 打 开 网 络 包 之 后 ， 我 习惯 性 地 试 了 * 性 能 问题 三 板 
径 ”。 

1. 单 击 Statistics-->Summary。 从 Avg.MBit/sec 看 到 ， 那 段 时 间 的 

流量 不 高 ， 所 以 该 存储 的 负担 似乎 并 不 重 〈 见 图 1) 。 


Display 


Display filter: none 
Ignored packets: 0 
Traffic 4 Captured 4 Displaved 4 Farked 4 | 
Packets 13865 13866 0 
Betwween First and last packet 3,051 sec 
byg, packets!sec 4545.,0654 
byg, packet size B54,255 bytes 
Bytes 11345100 
byg, bytesisec 3882643,601 
byg., MBitisec 31.051 


图 1 


2 . 单 击 Statistics-->Service Response Time-->ONC-RPC-- 
>Program:NFS Version:3--> Create Stat ， 可 以 看 到 各 项 操作 的 Service 
Response Time 都 不 错 〈 见 图 2) ， 这 进一步 说 明 该 存储 并 没有 过 载 。 

ONC-RPC Service Response Time statistics for NFS ve... 辐 回 因 


ONC-RPC 5erwice Response Time statistics for MFS wersion 3; tcpdump,cap,serwer,cap 
Filter: 


Index 4 Procedure 4 Calk v MinSRT 4 Max SRT 4 Avg SRT 4 
1 GETATTR B22 0.000000 0.003907 0.000019 
7 WRITE 552 0,000000 0,023435 0,000410 
4 ACCESS 315 0.000000 0.003906 0.000012 
2 SETATTR 1 0.000000 0.000000 0.000000 
3 LOOKUP 1 0.000000 0,000000 0.000000 


- 


图 2 


3. 单 击 Analyze-->Expert Info Composite， 从 Error 和 Warning 里 都 
没有 看 到 报错 ， 这 说 明 网 络 没 有 问题 ( 见 图 3) 。 假 如 有 重 传 、 乱 序 之 


类 的 现象 ， 应 该 能 在 这 个 窗口 里 看 到 。 
型 Wireshark: 486 Expert Infos 


fg 
Errors: O (0) [Varnngs: 3¢488) | Notes; Ot0) | Chats: 0 {0) | Details: 486 | 


Group 4 Protocol 4 Summary 


Close 


图 3 


分 析 结 果 让 我 有 些 失 望 一 这 个 系统 看 起 来 如 此 健康 ， 完 全 不 像 是 
会 卡 的 样子 ， 接 下 来 该 怎么 处 理 ? 看 来 一 定 要 在 出 问题 的 时 刻 抓 到 
包 ， 舍 此 之 外 ， 别 无 他 途 了 。 我 小 心 翼 履 地 给 管理 员 写 了 一 封 邮 件 ， 
把 分 析 结 果 详 细 地 告诉 他 ， 并 且 提 出 再 次 抓 包 的 请 求 。 

等 待 回 复 时 很 是 志 必 ， 因 为 有 可 能 收 到 一 堆 抱 她 ， 没 想到 等 来 的 
竟 是 一 个 惊喜 一 他 表示 遇 到 一 位 懂 Wireshark 的 合作 者 非常 愉快 ， 并 且 
准备 与 一 个 程序 来 抓 到 我 需要 的 包 。 这 个 程序 会 不 停 地 打开 文件 ， 当 
出 现 卡 的 症状 时 ， 记 录 时 间 点 并 且 自 动 停 止 抓 包 。 碰 到 如 此 讲 道 理 又 
懂 技 术 的 客户 ， 简 直 让 人 如 亲 春 风 。 

好 消息 接 中 而 至 ， 几 天 后 网 络 包 真 的 抓 到 了 ， 还 记录 了 出 问题 的 
时 间 上 点。 我 满怀 希望 地 又 试 了 三 板 佐 ， 预 感 这 次 一 定 能 看 到 某 些 迹 
象 ， 比 如 特别 长 的 Service Response Time 之 类 的 。 没 想到 一 番 忙 活 之 
后 ， 竟 然 和 之 前 的 分 析 结 果 一 模 一 样 一 什么 迹象 都 没 看 到 。 

不 会 是 漏 抓 了 吧 ? 考虑 到 这 位 管理 员 的 表现 非常 靠 谱 ， 应 该 不 至 
于 犯 这 样 的 小 错误 ， 我 宁愿 相信 和 是 自己 看 得 不 够 仔细 。 就 在 此 时 ， 我 
又 收 到 一 封 邮件 。 原 来 他 也 分 析 完 了 ， 一 样 没有 发 现 什么 问题 。 同 时 
也 强调 自己 没有 漏 抓 ， 相 信 间 题 一 定 就 隐藏 在 包 里 。 


我 不 由 得 会 心 一 笑 : 好 默契 的 回复 ! 今天 算是 遇 到 对 手 了 ， 这 是 
我 工作 这 么 多 年 来 第 一 次 碰 到 如 此 厉害 的 角色 。 既 然 三 板 代 没有 用 ， 
只 能 采用 笨 办 法 了 。 我 先 根 据 问题 发 生 的 时 间 点 过 滤 出 前 后 2 秒 钟 的 
所 有 包 ， 然 后 逐个 检查 。 这 下 果然 看 到 一 个 意 想 不 到 的 包 : 如 图 4 中 的 
包 号 440354 所 示 ，NFS 服 务 器 172.16.2.80 给 客户 端 172.16.2.102 发 了 一 
个 Portmap 请 求 ， 咨 询 其 NLM 进 程 的 端口 号 。 更 异常 的 是 这 个 请 求 竟 
然 没 有 得 到 回复 。 


Surce Deshnehon Protocol JP 

440352 2013-01-07 13:43;55.930812 Clariion_41;73:;ba Eroadcast ARP bl 72.16. 

440353 2013-01-07 13:43:55.9308]2 Vmware_ag:D0:4b Clariion_41:73:ba ARP 172.16.2.102 is at 00:5 
440354 2013-01-07 13:;43:55.930812 172.16,2.90 i172 2 P v2 0 


NLM 我 是 听 说 过 的 ， 是 Network Lock Manager 的 简称 。 客 户 端 用 
它 来 锁定 服务 器 上 的 文件 ， 从 而 避免 和 其 他 客户 端 发 生 访问 冲突 。 一 
般 都 是 由 客户 端 查询 服务 器 的 NLM 端 口 ， 这 种 反方 向 的 状况 我 还 是 第 
一 次 见 到 。 这 个 Portmap 请 求 出 现在 这 里 虽然 有 点 突 元 ， 不 过 似乎 可 以 
忽略 ， 因 为 我 想 不 出 它 跟 访问 文件 卡 有 什么 联系 。 

遍历 了 所 有 包 之 后 ， 仍 然 一 无 所 获 。 我 几乎 想 放 弃 了 ， 泪 来 的 感 
觉 就 像 交 卷 时 还 解 不 出 最 后 一 道 大 题 。 但 要 真正 放弃 又 不 甘心 ， 毕 竟 
投入 了 这 么 多 时 间 了 ， 而 且 也 对 不 起 这 么 配合 的 系统 管理 员 。 我 之 所 
以 至 今 对 这 个 案例 如 此 印象 深刻 ， 就 是 因为 工作 以 来 第 一 次 感觉 问题 
这 么 未 手 。 

纠结 了 一 天 之 后 ， 我 还 是 决定 从 头 再 来 ， 这 次 要 更 细致 地 分 析 每 
一 个 包 。 既 然 目 前 唯一 发 现 的 异常 就 是 那个 关于 NLM 的 Portmap 查 
询 ， 那 就 从 它 开始 吧 。 我 收集 了 一 些 资料 ， 重 温 了 一 遍 NLM 的 工作 原 
理 (虽然 我 以 前 懂 过 ， 但 细节 性 的 东西 一 段 时 间 没 有 接触 ， 是 很 容易 
忘记 的 ) ， 然 后 把 NLM 工 作 过 程 总 结 如 下 。 

1. 客户 端 甲 - NLM_LOCK_MSG request~ NFS 服 务 器 ( 甲 尝 试 
锁定 一 个 文件 ) 客户 端 甲 ~ NLM_LOCK_RES granted ~ NFS 服 务 器 
(服务 器 同意 了 这 个 锁定 ) 


2. 客户 端 乙 ~NLM_LOCK_MSG request~NFS 服 务 器 ( 乙 尝 试 
锁定 同一 个 文件 ) 

客户 端 乙 ~ NLM_LOCK_RES blocked -NFS 服务器 (因为 该 文件 
已 经 被 甲 锁 定 ， 所 以 服务 器 让 乙 等 着 ) 

3. 客户 端 甲 ~NLM_UNLOCK_MSGrequest~NFS 服 务 器 ( 甲 党 
试 释放 锁 ) 客户 端 甲 ~ NLM_UNLOCK_RES granted~ NEFS 服 务 器 ( 服 
务 器 同意 释放 ) 

4. 客户 端 乙 ~ NLM_GRANTED_MSG -NFS 服务器 (服务 器 主动 
把 锁 给 了 乙 ) 客户 端 乙 一 NLM_GRANTED_RES accept， NFS 服务器 

( 乙 接 受 了 ) 

Wireshark 里 看 到 的 那个 Portmap 请 求 ， 发 生 在 上 面 的 哪个 步骤 呢 ? 
应 该 在 第 三 步 和 第 四 步 之 间 。 就 在 找到 答案 的 一 刹那， 我 居然 大 悟 ， 
一 下 子 知道 问题 出 在 哪 了 。 

1. 第 三 步 之 后 ， 服 务 器 要 通过 Portmap 查 询 乙 的 NLM 端 口号 (也 
就 是 那个 诡异 的 包 ) ， 得 到 回复 后 才能 进入 第 四 步 。 

2. 假如 查询 端口 号 失败 ， 则 第 四 步 无 法 进行 ， 也 就 意味 着 服务 器 
没有 办 法 把 锁 给 乙 。 

3. 由 于 乙 得 不 到 锁 ， 所 以 只 能 继续 等 到 超时 为 止 。 这 对 于 应 用 程 
序 来 说 ， 就 是 卡 住 了 。 

4. 该 问题 只 发 生 在 多 个 客户 端 同时 访问 同一 文件 的 情况 下 ， 所 以 
表现 为 偶发 症状 。 

5. 乙 没 有 响应 Portmap 查 询 ， 很 可 能 是 包 被 防火 墙 拦截 了 。 

我 来 不 及 写 邮 件 ， 就 迫不及待 地 抓 起 电话 ， 把 分 析 结果 告诉 南 半 
球 的 系统 管理 员 。 他 也 非常 兴奋 ， 很 快 就 修改 了 防火 墙 设 置 ， 从 此 再 
也 没有 用 户 报告 过 卡 的 现象 。 

事情 是 否 到 此 结束 了 呢 ? 这 个 症状 的 确 结束 了 。 不 过 用 户 又 反馈 
了 另 一 个 症状 ， 这 一 次 连 Wireshark 都 无 能 为 力 ， 最 后 还 是 Patrick 专 门 
写 了 段 脚 本 才 解 决 的 。 由 于 这 个 新 间 题 没有 多 少 借 鉴 意 义 ， 所 以 本 书 


略 过 不 讲 。 但 是 写 脚本 所 用 到 的 tshark 工 具 非 常 有 用 ， 我 们 将 在 《学 无 
止境 》 一 文中 详 加 介绍 。 


学 无 止境 


当 你 用 Wireshark 解 决 了 一 个 又 一 个 难题 时 ， 再 谦虚 的 人 也 会 目 信 
心 脱 胀 ， 以 为 没有 什么 问题 是 解决 不 了 的 。 可 惜 这 只 是 错觉 ， 因 为 
Wireshark 的 确 有 它 的 应 用 极限 。 

我 是 什么 时 候 意 识 到 这 一 点 的 呢 ? 大 概 两 年 前 我 磁 到 过 这 样 一 个 
问题 : 接收 方 不 时 回复 “TCP Window=0” 给 发 送 方 ， 导 致 发 送 方 只 能 停 
下 来 等 待 。 整 个 传输 过 程 的 Sequence Number 曲 线 类 似 于 图 1 所 示 ， 其 
中 水 平 部 分 表明 接收 方 当 时 正在 发 “TCP Window=0”。 


r ~ 
国 TCP Orsaph 1: 2013 pcsp 1011147.4:49165 Ee 


Sequence 
mumbe 18] 


1500000000 


为 了 给 客户 出 一 份 专业 的 分 析 报 告 ， 我 需要 统计 出 “TCP 
Window=0? 所 导致 的 停滞 总 共有 多 少 窗 秒 。 通 过 图 1 的 横 坐 标 来 统计 显 
然 不 够 精确 ， 所 以 我 不 得 不 把 所 有 的 问题 包 过 滤 出 来 ， 逐 段 统计 停滞 
的 时 间 。 像 图 1 这 样 只 有 两 段 停滞 时 间 的 情况 还 好 ， 碰 到 有 几 十 段 的 
时 候 就 很 费时 了 。 

为 什么 我 要 人 工地 去 做 如 此 简单 的 重复 劳动 呢 ? 这 明显 更 适合 
程序 来 完成 ， 但 是 Wireshark 没 有 提供 这 项 功能 。 几 天 后 我 随口 向 
Patrick 提 起 了 这 个 问题 ， 没 想到 他 立即 分 享 给 我 一 段 脚本 。 我 只 需要 
运行 以 下 命令 ， 该 脚本 就 可 以 把 总 停滞 时 间 计 算出 来 了 。 
$tshark -n -r <tcpdump_name> -z 
"proto,colinfo,frame.time_relative,frame.time_relative' -z 
"proto,colinfo,tcp.ack && (tcp.srcport == <source_port> && tcp.dstport == 
<destination_port>),tcp.ack' -z 'proto,colinfo,tcp.window_size && (tcp.srcport == 
<source_port> && tcp.dstport == <destination_port>),tcp.window_size'|lawk -f 
<script> 

<script> 指 的 就 是 Patrick 分 享 的 脚本 。 由 于 篇 幅 所 限 ， 我 就 不 把 脚 
本 内 容 贴 出 来 了 ， 这 也 不 是 本 文 的 重点 。 我 们 真正 要 关注 的 是 上 面 用 
到 的 tshark 命 令 ， 它 相当 于 Wireshark 的 命令 行 版 本 。 和 图 形 界面 相 
比 ， 命 令 行 有 一 些 先 天 的 优势 。 


。 如 上 例 所 示 ， 命 令 行 的 输出 可 以 通过 awk 之 类 的 方式 直接 处 理 ， 
这 是 图 形 界 面 无 法 实现 的 。 有 一 些 高 手 之 所 以 说 tshark 的 功能 比 
Wireshark 强 大 ， 也 大 多 出 于 这 个 原因 。 


。 编辑 命令 虽然 费时 ， 但 是 编辑 好 之 后 可 以 反复 使 用 ， 甚 至 可 以 
写成 一 个 软件 。 比 如 我 经 常 需要 进行 性 能 调 优 ， 那 就 可 以 写 一 段 程序 
来 完成 本 书 多 次 提 到 过 的 三 板 佐 (Summary, Service Response Time 和 


Expert Info Composite) 。 拿 到 一 个 性 能 相关 的 包 之 后 ， 直 接 运 行 该 程 
序 就 可 以 得 到 三 板 估 结果 ， 这 比 起 用 Wireshatk 快 多 了 。 


。 tshark 输出 的 分 析 文 本 大 多 可 以 直接 写 入 分 析 报 告 中 ， 而 
Wireshark 生 成 不 了 这 样 的 报告 。 比 如 说 ， 我 想 统计 每 一 秒 钟 里 CIFS 操 
作 的 Service Response Time, 那 只 要 执行 以 下 命令 就 可 以 了 ， 如 下 例 所 
示 。 


tshark -n -qdq -r tcpdump.cap -z "io,stat,1.00,AVG(smb.time)smb.time" 


IO Statistics 

Interval: 1.000 secs 
Column #0: AVG(smb.time)smb.time 
| Column #0 

Time | AVG 
000.000-001.000 0.008 
001.000-002.000 0.007 
002.000-003.000 0.007 
003.000-004.000 0.007 
004.000-005.000 0.014 
005.000-006.000 0.001 
006.000-007.000 0.003 
007.000-008.000 0.005 
008.000-009.000 0.001 
009.000-010.000 0.001 
010.000-011.000 0.000 


011.000-012.000 0.000 


012.000-013.000 0.001 


这 个 结果 导入 Excel, 又 可 以 生成 各 种 报表 。 


。 和 其 他 软件 一 样 ， 命 令 行 往往 比 图 形 界 面 快 得 多 。 比 如 现在 有 
一 个 很 大 的 包 需 要 用 IP 192.168.1.134 过 滤 ， 用 Wireshark 操 作 的 话 先 得 
打开 包 ， 再 用 ip.addr==192.168.1.134 过 滤 ， 最 后 保存 结果 。 这 三 个 步 
又 都 很 费时 ， 但 是 tshark 用 下 面 一 条 命令 就 可 以 完成 了 。 


tshark -r tcpdump.log -R "ip.addr==192.168.1.134 " -w tcpdump.log.filtered 

因为 上 述 这 些 优势 ， 一 位 工程 师 可 能 上 手 tshark 之 后 很 快 就 会 舍弃 
Wireshark。 是 的 ， 就 是 本 书 所 极力 推荐 的 Wireshark。 学 无 止境 ， 当 你 
掌握 了 足够 多 的 经 验 时 ， 就 完全 可 以 忽略 Wireshark 的 友好 界面 ， 转 而 
追求 更 高 效 ， 也 更 复杂 的 tshark。 

tshark 的 入 门 并 不 难 。 在 安装 好 tshark 的 操作 系统 上 (安装 
Wireshark 的 时 候 也 默认 安装 tshark) ， 执 行 “tshark -h” 就 可 以 阅读 使 用 
说 明了 。 有 Wireshark 经 验 的 读者 应 该 不 需要 我 来 解析 这 些 说 明 。 本 文 
要 分 享 的， 是 一 些 从 使 用 说 明 上 学 不 到 的 技巧 。 
1. 如 何在 Windows 命 令 行 中 搜索 tshark 的 输出 ? 

我 建议 安装 含有 ggrep 的 Windows Resource Kit， 然 后 就 可 以 用 
qgrep 来 搜索 了 。 如 图 2 所 示 ， 我 希望 搜索 mount.pcap 中 含有 “code” 字 符 


串 的 一 个 包 ， 就 可 以 用 qgrep 找 出 来 。 
Administrator: CMWindows\system32\cmd.exe es > . 


C:\book\book_ material\NFS>tshark -Fr mount .pcap lqgrep -e code ^ 
134 18.32.106.159 -> 190.32.196.62 9.609375 MOUNT VY3 MNT Call /code 


C:\book\book_material\NFS> 


图 2 


2. 本 书 介 绍 过 的 性 能 问题 三 板 参 如 何 通过 命令 实现 ? 
a. Summary 可 以 通过 capinfos 命 令 查 询 ， 如 图 3 所 示 。 


Fr 
葬 Administrator C\Windows\system32\cmd .exe 


File name: 
File type: 
File encapsulation: 
Packet size limit: 
Number of packets: 
File size: 
Data size: 
Lapture duration: 
ter time: 

time: 
Dat byte rate: 
Data bit rate: 


Average packet size: 
Average packet rate: 


C:\book\book_material\NFS>capinfos mount .pcap 


mount .pcap 
Hireshark/tcpdump/.. 
Ethernet 

file hdr: 1516 bytes 
239 


22404 bytes 

18616 bytes 

17 seconds 

Non Jul > 1 21:09 2013 
Hon Jul 4:21:26 2013 
1080.17 
8641.33 bits/sec 

17?7.89 bytes 


- libpcap 


4 四 


13.87 packets/sec 
| 


注意 : 
除非 你 手动 义 掉 它们 。 


b. 获取 Service Response Time 则 要 视 不 同 协 议 而 定 ， 比 如 NFS 协 


议 可 以 用 图 4 中 的 命令 。 


图 3 


: 安装 Wireshark 的 时 候 ， 默 认 会 附带 capinfos 和 Editcap 等 工具 ， 


再 
下 人 Administrator CMWindows\system32\cmd.exe 


Program ersion 
portmap (100000) 2 
NFS(100003 ) 3 
HOUNT(160005 ] 3 


C:\book\book_material\NFS> tshark -n -q 


ONC-RPC Program Statistics: 


C:\book\book_material\NFS> 
«| 人 


-rr mount .pcap -Zz 


Calls Min SRT Max SRT Avg SRT 
2 0.000000 0.000000 0.000000 
4 0.000000 0.003907 0.0068977 
2 0.0006000 0.000000 0.006000 


CIFS 协 议 只 要 把 图 4 中 双 引 号 中 的 内 容 改 为 “smbrtt” 即 可 〈 见 图 


5 a 


图 4 


“rpc ,programs” 


i Administrator: C:\Windows\system32\cmd.exe | = 
C:\book\book material\CIFS>tshark -n -qd -r cifs.cap -Z “smb,.rtt,™ 

SHB SRT Statistics: 
Filter: 

Commands Calls Min SRT Max SRT hug SRT 

Close 9 0.0800682 8.000787 0.008736 

Read fnd¥y 1 0.000754 0.006754 0.000754 e 
Negotiate Protocol 1 0.000964 0.000964 0.000904 ， 
Session Setup find¥ 2 0.000876 06.006989 0.003J933 = 
4| Hl 症 上 


图 5 


c. 重 传 状况 要 用 到 tcp.analysis.retransmission 命 令 ， 注 意图 6 中 这 
384 个 frames 包 括 了 超时 重 传 和 快速 重 传 两 种 情况 。 


[Adrmiristretor CAWindows\system3Ziemd eme ot 
C:\book\book_material\tcpoY tshark -n -q -Fr retran.cap -z “io,stat,8,tcp.analysis.retransnission™ 


I0 Statistics _ -we 
[Column #6: tcp.anelysis,.retransmlission 

olumn #0 | 
Time | Frawmes | Bytes | 
000. 800-— 38# 324238 


C:\book\book_material\itcpS)> 


d. 乱 序 状况 则 只 要 把 “retransmission” 改 成 ”out_of_order”( 见 图 
2) 


rr 本 本 i 
画 Administrator CWindowsysystem3Z\cmd exe 王姬 


人 2 EE 四 的 
L;\book\book_material\tcpy>tshark -n -9 -r retran,cap -z “10,Stat,8,tcp,analysls,out_of_order 


I0 Statistics ， 
Column MO; tcp,analysis,out_of_order 

| olumn HO | 
Time | Frames | Bytes | 


000.000- 139 123531 


C:\book\book_material\tcpo>m 


图 7 


3. 如 何 统计 一 个 包 里 的 所 有 对 话 ? 
“conv，Xxx” 就 可 以 做 到 ， 其 中 xxx 可 以 是 tcp、udp、eth 或 者 ip 
( 见 图 8) 。 


和 
C:\book\book_material\tcps>tshark -n -dq -r retran,cap -z “conv,tcp™ 


TCP Conversations 
Filter:<No Filter> 


lL | 《一 | -> | | Total | 
I | Frames BE | | Boies | | Frames Bytes | 
10.1184.190.190:2949 <-> 10.11é.180.11:818 1&915 672236 6416 92316932 81331 T019897e6 
10.114.130.100:49454《“-> 10.116.1&0. 1: S908 1 850994 20170 27909542 364019 28959936 _ 
10.11.180.,180:2049 <-> 109.114,100,10 6435 12396 15979612 18831 19639838 = 
10.11&.100.100:2049 《->19.114.190.11: :8 ?7398 18993186 &789 1766106 121&1 11989210 
> 16.11#.180.106:621 2568 3445232 1608 238B 和 和 和 4168 3683676 -| 
Nn 上 


N16.116.1860.100:2049 <- 


图 8 


4. 如 果 一 个 包 大 得 连 tshark 都 无 法 打开 ， 有 没有 办 法 切 分 成 多 
个 ? 

有 办 法 ， 可 以 使 用 editcap 命 令 来 做 到 。 我 常用 “editcap <input file> 
<output file> -i <seconds per file>” 或 者 “editcap <input file> <output file> 
-C <packets per file>” 两 种 方式 。 图 9 所 示 的 例子 以 每 8 秒 为 间隔 切 分 了 
这 个 包 。 


[ 画 Administrator: C\WWindows\system3Z\cmd,exe 
:\book\book_material\tcpy>editcap retran,cap output .cap -1 8 


;\book\book_material\tcpy>dir output* 
Volume in drive C has no label. 


Volume Serial Number is #434-39C09 
Directory of C:\book\book material\tcp5 


&/83/2014 Qé4:22 PH 8,287.620 output_00008_20139115095628 .cap 
470372014 04:22 PH 8,622,638 output_80801_20138115895636. cap 
#4/@3/2014 04:22 PH 17 .918,223 output_80802_201301150956#4 .cap 
#/03/2014 84:22 PH 711,861.#31 output_90003_201381195095652 .cap 
#4/03/2014 84:22 PH 36 ,343 ,464 output_006864_20139115695708.cap 
470372014 04:22 PH 27,948,739 output_00065 201391120952708 .cap 
470372014 04:22 PM 399 488 output_00066_20138115095 716.cap 


?7 File(s) 170, 573 .595 byvtes 
0 Diresj 17,741,430,784 bytes free 


'\book\book_material\tcp5>, 


«| 加 


4 | 


图 9 


除了 这 里 介绍 的 这 些 ，tshark 下 的 网 络 分 析 技 巧 还 有 很 多 。 利 用 管 

A a a i er 
每 位 工程 师长 期 学 习 。 如 果 学 习 过 程 中 遇 到 任何 问题 ， 建 议 查 询 
Wireshark 的 官方 说 明 ， 地 址 为 http://www. wireshark.org/docs/man- 
pages/tshark.html。 就 算 我 这 样 的 老 用 户 还 经 常 能 从 中 学 到 新 知识 呢 。 


一 个 技术 男 的 目 日 


当 我 在 台灯 下 与 到 这 一 篇 时 ， 不 由 得 想到 几 个 月 后 ， 另 一 束 灯光 
下 的 读者 正 翻 到 这 一 页 ， 跨 越 时 空 的 交流 真是 奇妙 。 我 要 感谢 你 购买 
本 书 并 坚持 读 到 这 里 。 作 为 小 众 图 书 的 作者 ， 我 最 珍视 的 是 读者 对 本 
书 内 容 的 喜爱 ， 也 和 希望 你 在 阅读 中 有 所 收获 。 最 后 一 篇 ， 就 让 我 们 扎 
记 那 些 之 味 的 术语 ， 谈 些 有 趣 一 点 的 话题 吧 。 

关于 技术 ， 当 下 的 热点 是 Full Stack Engineer， 翻 译 过 来 就 是 全 栈 
工程 师 。 我 的 理解 就 是 从 前 端 到 后 端 ， 从 软件 到 硬件 都 懂 的 通才 。 其 
实在 全 栈 的 概念 出 现 之 前 ， 关 于 技术 广度 和 深度 的 讨论 就 从 来 没有 停 
止 过 。 人 在 时 间 有 限 的 情况 下 ， 究 竟 是 应 该 扩展 广度 ， 各 种 技术 都 去 涉 
昔 ， 还 是 把 所 有 精力 都 投入 在 一 门 技术 上 呢 ? 我 个 人 更 倾向 于 后 者 ， 
因为 当 某 项 技术 学 到 了 较 深 的 程度 后 ， 眼 界 就 不 一 样 了 ， 再 学 其 他 的 
技术 也 容易 达到 类 似 境界 。 以 本 书 提 到 的 协议 为 例 ， 如 果 你 已 经 精通 
CIFS， 那 很 可 能 稍 加 点 拨 就 能 完全 理解 NFS; 同样 如 果 你 理解 了 网 络 
的 分 层 和 流 控 ， 再 学 习 存 储 的 层次 和 缓存 也 比较 容易 。 但 假如 一 个 人 
连 最 擅长 的 技术 都 浅 尝 轻 止 ， 那 学 习 其 他 技术 也 会 停留 在 表面 上 。 我 
有 位 技术 出 色 的 朋友 用 过 一 个 生动 的 比喻 来 说 明 这 个 问题 : 技术 深度 
和 广度 的 关系 ， 就 像 登 山 时 的 高 度 和 视野 。 假 如 你 爬 到 半山 腰 就 停 下 
来 胱 望 ， 就 只 能 看 到 一 半 的 视野 ;但 如 果 埋 尖 扑 到 山顶 ， 一 拾 头 便 是 
无 边 的 风景 。 

关于 薪水 ， 是 很 多 工程 师 自 怨 自 艾 的 口水 话题 。 不 知道 从 何 时 开 
台 ， 大 家 似乎 都 觉得 自己 被 亏 待 了 。 微 博 上 流传 各 种 自嘲 的 段子 ， 比 
如 “今天 你 编程 时 流 的 汗 ， 就 是 当初 填 志 愿 时 脑子 进 的 水 ”; 我 也 曾经 
开玩笑 说 自己 的 英文 名 是 “Low Payman”; 我 有 位 年 薪 40 多 万 的 同事 ， 
MSN 签名 是 “少壮 不 努力 ， 老 大 干 IT”; 还 有 一 种 流行 的 说 法 ， 认 为 在 
中 国 不 适合 走 技 术 路 线 ， 否 则 为 什么 在 国外 才 有 白 发 区 区 的 老 工程 
师 ? 看 过 太 多 类 似 段 子 之 后 ， 我 觉得 这 种 群体 心态 已 经 有 点 矫情 了 。 


无 论 在 什么 国家 ， 工 程 师 都 排 不 上 收入 最 高 的 群体 。 相 比 国外 ， 中 国 
工程 师 地 位 已 经 算 高 了 ， 比 如 美国 工程 师 的 收入 就 完全 比 不 上 律师 和 
医生 等 职业 ， 但 在 中 国 就 未 必 是 这 样 。 中 国 也 不 是 没有 老 工程 师 的 发 
展 空间 ， 而 是 因为 第 一 批 工 程 师 还 没有 变 老 。 热 爱 自 嘲 的 人 其 实 也 心 
知 肚 明 一 他 们 的 薪水 完全 足以 维持 体面 的 生活 ， 比 如 那 位 “少壮 不 努 
力 ” 的 同学 ， 一 直 在 上 海 这 个 大 染 负 过 着 纸醉金迷 的 日 子 。 而 真正 徒 伤 
斑 的 职业 ， 和 恐 怕 根 本 没有 心情 自我 编排 .…… 我 认为 自嘲 是 一 种 难得 的 
幽默 ， 但 是 当 一 个 群体 的 目 鄙 都 专注 在 新 水 上 ， 听 上 去 就 有 点 无 聊 。 

关于 办 公 室 政治 ， 那 真 不 是 属于 我 们 的 战场 。 孟 子 的 “ 劳 心 者 冶 
人 ， 劳 力 者 治 于 人 ”对 中 国 影 响 太 过 深远 ， 我 不 止 一 位 朋友 从 技术 路 线 
改 走 管理 路 线 的 时 候 ， 以 这 句 话 作为 座右铭 。 而 在 我 看 来 ， 自 从 人 类 
进化 到 可 以 坐 在 办 公 室 里 “劳力 ”之 后 ，“ 劳 心 ”就 缺乏 吸引 力 了 。 人 类 
比 电 脑 狐 诈 太 多 ， 还 是 管 电脑 省 心 。 我 们 就 把 办 公 室 政治 这 样 劳 心 的 
活 儿 留 给 走 管理 路 线 的 同事 吧 ， 只 要 不 站 队 不 说 是 非 ， 用 技术 帮助 所 
有 人 ， 自 然 会 成 为 单位 里 最 受 尊敬 的 人 。 

关于 创业 ， 我 想 没 有 哪个 行业 比 IT 界 更 热衷 于 此 了 。 或 许 是 因为 
这 一 行 有 过 太 多 轻易 成 功 的 故事 ， 所 以 工程 师 们 蠢蠢欲动 ， 仿 佛 每 个 
人 都 在 想 ， 连 一 个 毫 无 技术 含量 的 导航 网 站 都 能 被 高 价 收 购 ， 满 腹 才 
华 的 我 能 干 出 怎样 惊天 动 地 的 事业 ? 于 是 有 志 者 开始 对 职业 不 满 ， 觉 
得 无 论 如 何 应 该 出 去 冯 闻 ， 寻 找 自 己 被 封印 的 灵魂 ， 他 们 振臂 一 挥 ， 
豪气 万 丈 地 说 “ 走 ， 创 业 去 ! ”其 实 我 个 人 是 非常 姜 莫 这 样 充满 激情 的 
人 生 的 ， 无 奈 看 过 太 多 失败 的 例子 ， 总 觉得 创业 的 成 功率 被 高 估 。 有 
位 朋友 到 福建 承包 一 片山 林 之 后 ， 很 快 发 现 这 东西 并 没有 想象 中 那么 
赚钱 。 终 于 在 伦 光 所 有 积 著 之 后 ， 萌 发 了 “不 如 归 去 ”的 念头 。 虽 然 听 
上 去 颇 有 禅 意 ， 其 实心 里 还 是 很 忌 悔 的 ， 最 后 不 仅 回 到 原来 公司 ， 还 
坐 到 原来 的 位 子 上 。 当 人 然 成 功 者 也 是 有 的 ， 不 要 妨 嫉 他 们 ， 因 为 这 是 
冒 着 风险 得 到 的 。 


关于 跳槽 ， 除 了 印度 之 外 ， 我 还 没有 见 过 比 中 国 工程 师 更 爱 跳 模 
的 群体 。 由 于 每 跳槽 一 次 基本 能 加 薪 30%， 的 确 让 人 难以 淡定 地 采 在 
一 个 岗位 上 。 不 过 在 我 看 来 ， 频 繁 跳槽 所 付出 的 代价 芍 怕 高 于 这 点 收 
蔓 ， 因 为 很 快 融会 发 现 无 处 可 跳 了 。 而 且 更 大 的 副作用 是 ， 多 次 换 工 
作 导 致 了 各 种 技术 都 只 学 到 皮毛 ， 等 醒悟 过 来 已 经 晚 了 。 如 果 某 个 新 
职位 吸引 你 的 亮点 只 是 加 薪 ， 我 建议 三 思 而 行 。 

关于 理科 生 的 骄傲 ， 在 工程 师 群 体 中 ， 有 小 部 分 年 轻 人 至 今 还 保 
持 着 源 自 高 中 理科 班 的 自豪 感 。 比 如 看 到 一 本 精彩 的 科幻 小 说 ， 便 觉 
得 文科 生 不 可 能 懂 ; 如果 新 来 的 领导 不 是 理工 科 出 身 ， 就 感叹 所 处 的 
并 非 技术 驱动 型 公司 ; 最 让 我 吃惊 的 一 次 ， 是 一 位 DBA 质 疑 不 懂 技 术 
的 销售 人 员 为 什么 地 位 那么 高 。 这 种 错误 的 认 知 显然 源 于 交际 圈子 的 
狭隘 ， 对 非 技 术 人 员 的 能 力 缺 乏 了 解 。 其 实 你 在 调试 代码 时 ， 他 们 同 
样 在 推 斋 文 案 ， 你 在 餐桌 上 只 管 品 采 海 侈 ， 他 们 却 要 左右 着 关 ， 让 所 
有 宾客 感到 满意 ;你 结交 朋友 只 看 心情 喜好 ， 他 们 在 朋友 圈 里 只 说 “ 正 
确 ” 的 话 ， 永 远 如 亲 春 风 地 倾听 ;你 在 内 部 会 议 上 发 言 都 显 拘 尊 ， 他 们 
面 对 突如其来 的 话 简 也 能 侃侃 而 谈 .……... 毫 无 疑问 ， 非 技术 工作 的 “技术 
含量 "一 点 都 不 低 。 科 好 随 着 阅历 的 增长 ， 大 多 数理 科 生 都 能 改 掉 这 个 
毛病 。 

天 于 生活 ，IT 男 们 已 经 被 打上 了 太 多 标签 : 宅 、 木 讷 、 生 活 简 
单 。 这 当然 是 一 种 偏见 ， 至 少 我 身边 的 朋友 就 不 是 这 样 。 不 过 比 起 国 
外 的 工程 师 群 体 ， 我 们 的 业余 生活 似乎 是 单调 了 些 。 比 如 与 我 合作 多 
年 的 国外 同事 中 ， 有 组 乐队 的 、 当 冰球 教练 的 、 玩 帆船 的 、DIY 花 园 
的 .…... 有 些 朋友 对 此 羡慕 不 已 ， 以 为 发 达 国 家 才 玩 得 起 多 样 化 的 娱 
乐 ， 对 此 我 不 敢 有 同 。 比 如 中 国学 习 乐 器 的 人 数 早 就 全 球 第 一 ， 在 我 
屈指 可 数 的 女 同 事 中 ， 至 少 有 三 位 在 小 时 候 考 过 钢琴 十 级 。 我 所 住 的 
小 区 一 楼 都 配 有 朝 南 的 大 院子 ， 园 艺 条 件 极 佳 ， 只 是 户 户 都 铺 砖 硬化 
了 .……… 所 以 细 想 起 来 ， 经 济 上 并 不 是 主因 ， 只 是 不 够 热情 罢了 。 工 程 


师 本 来 就 是 最 擅长 DIY 的 群体 ， 只 要 行动 起 来 ， 完 全 可 以 让 业余 生活 
更 加 丰富 ， 成 为 一 个 更 加 有 趣 的 人 。 


